讓機(jī)器翻譯為我們工作 - 第2部分
2019-01-01 11:43:24
在我們采訪STP常駐機(jī)器翻譯專家Mattia Ruaro的第一部分中,我們談到了機(jī)器翻譯(MT):它是如何工作的,如何在STP中使用以及公司可以采取哪些措施來培訓(xùn)MT引擎使用。
在第二部分中,您可以閱讀Mattia關(guān)于MT技術(shù)最新發(fā)展的想法,該技術(shù)讓人們預(yù)測翻譯的結(jié)束我們所知道的:神經(jīng)機(jī)器翻譯。
那么,Mattia,什么是神經(jīng)機(jī)器翻譯?炒作是什么?
神經(jīng)機(jī)器翻譯(NMT)與統(tǒng)計(jì)機(jī)器翻譯(SMT)基本相同,但背后有更多的“大腦”。隨著時(shí)間的推移,NMT可能會(huì)自我提升并自行學(xué)習(xí)。
重要的區(qū)別在于NMT引擎需要的數(shù)據(jù)量 - 這比傳統(tǒng)的SMT引擎要多得多。
基本上,您有在多個(gè)級別上建立連接的節(jié)點(diǎn),例如上下文和子句級別。這使得NMT更加靈活 - 它可以分析較短的文本位,因此目標(biāo)輸出的流量往往更好。
我們經(jīng)常開玩笑說,當(dāng)你訓(xùn)練SMT引擎時(shí),你正在訓(xùn)練一臺(tái)機(jī)器。神經(jīng)學(xué)更像是教孩子一門語言 - 或者培養(yǎng)一個(gè)雙語的孩子!當(dāng)引擎正在學(xué)習(xí)時(shí),它當(dāng)然會(huì)犯很多錯(cuò)誤。
NMT產(chǎn)量與以前的技術(shù)相比如何?
首先是更好的流暢性。NMT引擎的輸出往往更加慣用,這意味著它更像自然語言。比以前更頻繁地,引擎能夠在手邊的句子的上下文中使用適當(dāng)?shù)耐x詞或表達(dá)。
適應(yīng)直接上下文對于具有復(fù)雜語法的德語或丹麥語等語言有很大幫助。例如,可以更準(zhǔn)確地解釋用逗號分隔的子條款。
NMT的一個(gè)關(guān)鍵方面是它更好地解釋了形態(tài)學(xué)。例如,第一人稱中的動(dòng)詞通常會(huì)在第一人稱中呈現(xiàn)為等效動(dòng)詞。所以,如果消息來源說我用英文寫作,那么目標(biāo)就是法語中的j'écris,結(jié)果正確。如果引擎無法識(shí)別該人,它將為您提供下一個(gè)最好的東西,通常是不定式中的動(dòng)詞(例如écrire)。這樣便于手動(dòng)編輯。
我們之前談過培訓(xùn)MT引擎。培訓(xùn)NMT引擎與SMT和RBMT(基于規(guī)則的機(jī)器翻譯)引擎有何不同?
NMT比SMT和RBMT需要更多的數(shù)據(jù)。首先采用NMT的最大障礙是較小的公司無法找到足夠的數(shù)據(jù)。首先,NMT引擎需要至少1000萬字的數(shù)據(jù)。
相比之下,只要數(shù)據(jù)良好,SMT引擎就可以很好; 你可以得到一個(gè)體面的SMT引擎,只有一百萬字。
因此,在這方面,NMT更重要的是數(shù)量超過質(zhì)量!為了說明這一點(diǎn),我們的芬蘭NMT引擎現(xiàn)在有1.4億字。
另一件事是訓(xùn)練引擎。NMT引擎傾向于根據(jù)您添加的數(shù)據(jù)自行解決問題 - 它們提出了規(guī)則。如果你愿意,你仍然可以添加規(guī)則,但有時(shí)候這可能會(huì)適得其反 - 你做得太多,太過嚴(yán)格。
例如,STP的德語到英語翻譯者想知道為什么德語 - 英語引擎正在翻譯個(gè)人名字。事實(shí)證明,這些具體名稱也都是有意義的名詞(例如姓Müller,意思是“米勒”)。這意味著我們必須仔細(xì)考慮新規(guī)則的需要,因?yàn)槊~Müller (大寫,就像德語中的所有名詞一樣)可能會(huì)出現(xiàn)在關(guān)于銑床的文本中。
在這種情況下,不管它并且每次手動(dòng)替換翻譯的名稱是最容易的事情。譯者發(fā)現(xiàn)這是一個(gè)容易犯的錯(cuò)誤。您看到錯(cuò)誤,檢查源并相應(yīng)地修復(fù)輸出。沒有人期望輸出是完美的。
NMT會(huì)取代人工翻譯嗎?
一百次,不!像這樣的技術(shù)和你使用的技術(shù)一樣好。
我可以想象這樣一種情況:世界各地有幾個(gè)辦事處的公司需要內(nèi)部通信,例如來自人力資源部門的短信,這些信息很快就會(huì)被翻譯。這些可以通過公司為此目的開發(fā)和培訓(xùn)的專用發(fā)動(dòng)機(jī)來運(yùn)行。翻譯的質(zhì)量不高,但人們會(huì)得到這個(gè)要點(diǎn)。但這將是內(nèi)部溝通,而客戶從未見過 - 僅供參考。另一個(gè)例子是使用MT翻譯大量的調(diào)查回復(fù)以用于市場研究目的。
但這不是它的使用方式或許多人如何看待它。許多機(jī)器翻譯的早期采用者濫用了這項(xiàng)技術(shù),這已經(jīng)影響了它的聲譽(yù)。
關(guān)鍵是要適當(dāng)使用MT輸出。專業(yè)翻譯人員可以將其用作工具。甚至有人建議,MT引擎產(chǎn)生的后期編輯輸出可以是作為翻譯者提供的單獨(dú)服務(wù),只要您知道自己在做什么。
譯員沒有被替換; 只是他們的工作方式正在發(fā)生變化。
NMT技術(shù)對不同的語言對有不同的作用嗎?
對某些語言對來說,它似乎已經(jīng)完成了。例如,英語 - 日語運(yùn)作良好,我覺得非常令人印象深刻。北歐語言并沒有太多集中,因?yàn)樗鼈冚^小。
德語輸出似乎受到語言的語法復(fù)雜性和嚴(yán)格性的影響,資本化是一個(gè)巨大的問題。浪漫語言似乎運(yùn)作良好; NMT引擎似乎應(yīng)對了他們的動(dòng)詞范式和時(shí)態(tài)。
而不是語言對,問題更多的是目標(biāo)語言本身。芬蘭顯然對我們來說有點(diǎn)頭疼。
為什么,語法復(fù)雜性更重要還是詞匯問題?
我認(rèn)為形態(tài)學(xué)更重要,語言中的語法復(fù)雜性。引擎將更難辨別一個(gè)單詞的不同部分。
芬蘭的案例系統(tǒng)對發(fā)動(dòng)機(jī)來說是一個(gè)真正的挑戰(zhàn)。每個(gè)案例結(jié)尾都是一個(gè)變量,您需要在每個(gè)場景中考慮這個(gè)變量。芬蘭有15個(gè)不同的案例,其中許多案例有幾種可能的結(jié)局,這意味著有很多潛在的選擇。
到目前為止,我只聽說過一家公司在形態(tài)和流暢性方面使芬蘭發(fā)動(dòng)機(jī)工作得非常好。而這只能通過專注于一種語言來實(shí)現(xiàn)。
NMT的成本有多高?值得投資嗎?
非常昂貴。您需要功能強(qiáng)大的服務(wù)器來運(yùn)行我們正在談?wù)摰拇罅繑?shù)據(jù)。如果SMT駕駛汽車,NMT更像是駕駛噴氣式飛機(jī) - 燃料成本要高得多。不過,它現(xiàn)在比以前更實(shí)惠?,F(xiàn)在有越來越多的選擇,價(jià)格正在下降。
就成本效率而言,我會(huì)說,如果使用得當(dāng),MT有可能真正加快既定工作流程中的翻譯速度。
MT一般和NMT有多安全?我們?nèi)绾未_保個(gè)人數(shù)據(jù)和其他數(shù)據(jù)安全?
它和你想要的一樣安全。這取決于誰處理您的引擎以及如何處理。我們有第三方技術(shù),但我們檢查了他們的位置和背景。
我們還清理數(shù)據(jù)以確保其安全,以便不會(huì)使用任何個(gè)人數(shù)據(jù)來訓(xùn)練引擎。甚至谷歌也不再重復(fù)使用您發(fā)送給他們的數(shù)據(jù)。有一段時(shí)間了,他們僅限于谷歌本身的數(shù)據(jù),而不是使用翻譯人員的最終輸出。
換句話說,我認(rèn)為機(jī)器翻譯是非常安全的。
在與Mattia的訪談的第三部分中,我們將與他討論機(jī)器翻譯后編輯的實(shí)踐以及翻譯人員如何學(xué)習(xí)編輯MT引擎的輸出。