讓機器翻譯為我們工作 - 第1部分
2019-01-01 11:46:50
機器翻譯似乎不僅是翻譯行業(yè)的一大趨勢,而且它也成為行業(yè)之外的流行語。機器翻譯不是一種新現(xiàn)象; 幾十年來,學術研究人員一直在研究使用機器將一種語言翻譯成另一種語言而不需要人為干預的可能性。
在線免費提供的機器翻譯類型改變了大多數(shù)人的行為(至少在線):現(xiàn)在,您只需點擊幾下即可獲得用您不理解的語言編寫的文章或網(wǎng)站的要點。
其他機器翻譯引擎現(xiàn)在也被專業(yè)翻譯人員使用。最新的發(fā)展是使用人工智能來幫助使引擎更加準確,這使得一些人預測機器將接管人類執(zhí)行的翻譯任務。
我們與STP技術團隊的機器翻譯(MT)專家Mattia Ruaro坐下來討論業(yè)界和STP的MT。Mattia是一名培訓翻譯員,在開始擔任項目管理職務后,已成為STP技術團隊的重要組成部分。
在第一部分中,我們將與Mattia討論機器翻譯是什么以及機器翻譯引擎如何使用和培訓。
那么,Mattia,MT是如何運作的?
機器翻譯是一種允許引擎從一種自然語言翻譯成另一種語言的技術。到目前為止,自然語言基本上也意味著書面語言。機器翻譯已經存在了幾十年,但在過去的20年里取得了很大的進步。
有幾種類型的MT引擎; 首先是基于規(guī)則的,然后是統(tǒng)計的,然后是最近的神經機器翻譯。每種新型MT都遵循相同的模式:技術已經開發(fā)出來,經過試驗和熱情使用 - 然后人們發(fā)現(xiàn)了它的局限性。
雖然有很多關于最新技術,神經MT,甚至替換人類翻譯的炒作,但它也有局限性。這個循環(huán)似乎適用于所有不同的技術 - 它們實際上都不是他們在一開始就大肆宣傳的奇跡解決方案。
統(tǒng)計機器翻譯(SMT)和基于規(guī)則的機器翻譯(RBMT)之間有什么區(qū)別?
從本質上講,基于規(guī)則的機器翻譯就像它在錫上所說的那樣; 引擎根據(jù)一組規(guī)則進行操作,這些規(guī)則由開發(fā)者輸入。除了規(guī)則之外,沒有什么能夠調節(jié)發(fā)動機的輸出。
很快發(fā)現(xiàn)了純粹基于規(guī)則的機器翻譯的局限性。您需要手動輸入所有規(guī)則,有時需要一長串異常列表,這在商業(yè)環(huán)境中是不可行的,因為它需要太長時間。
唯一的例外是您的源語言和目標語言密切相關的情況。這意味著語言在詞典和詞典的語義方面非常接近,并且結構相似。由于您不需要輸入許多不同的規(guī)則,因此您可以節(jié)省大量精力。
統(tǒng)計引擎是不同的:它們利用數(shù)據(jù)來創(chuàng)建模式 - 這是一種更新的方法。它基本上是為發(fā)動機提供盡可能多的數(shù)據(jù),以及發(fā)動機在該數(shù)據(jù)中找到模式。
在STP,您提到的MT引擎中使用了哪些類型的MT引擎?
他們都是。我們嘗試使用基于規(guī)則的引擎來翻譯斯堪的納維亞語,這些語言密切相關。因此,我們將使用基于規(guī)則的引擎來生成輸出,以幫助我們將丹麥語翻譯成瑞典語的文本。
在過去的4到5年中,統(tǒng)計引擎在我們的業(yè)務方面更加可行。最近,我們一直在嘗試神經機器翻譯。我們開始只使用英語進入芬蘭語進行神經MT,但我們現(xiàn)在正在使用其他語言對來試用它。到目前為止,它似乎在輸出的流暢性方面運作良好,但在處理術語方面仍然存在一些困難,特別是在涉及專業(yè)領域時。只有時間 - 和廣泛的測試 - 才能說明這項技術真正有多好。
到目前為止,哪些語言對有MT最成功?那么文本域呢?
對于我們STP,不同域之間的差異比不同語言對之間的差異更大。統(tǒng)計引擎優(yōu)于基于規(guī)則的引擎具有可定制性。這完全取決于您為引擎提供的數(shù)據(jù)。
如果您只輸入一個域的數(shù)據(jù),則可以獲得相當好的結果,因為您正在為窄范圍的材料訓練引擎。這在軟件,機械工程,金融和商業(yè)方面都取得了成功 - 后者對網(wǎng)站內容,新聞簡報,人力資源文檔等等都是一個全面的術語。
但MT對所有領域都沒有成功。例如,我們在醫(yī)療引擎方面沒有取得多大成功。醫(yī)學文本受到嚴格監(jiān)管,當您必須遵循多個詞匯表和樣式指南時,機器翻譯建議可能會成為一種障礙而不是幫助。
是否不可能在詞匯表和其他資源的幫助下訓練引擎?
是的,當然是有詞匯表。樣式指南是指導原則,在大多數(shù)情況下它們不包含絕對規(guī)則,因此它們更難以實現(xiàn)。還必須說這些資源只有客戶端才有用。
詞匯表和資源的另一個問題是它們通常特定于一個客戶端 - 為一個客戶創(chuàng)建和培訓引擎是時間,精力和金錢的巨大投資。因此,我們需要確保它將來會有用 - 這對語言服務提供商來說是一項風險投資。
您如何訓練MT引擎以獲得高質量的輸出?
通過開始有很多好的數(shù)據(jù)。如果您正在尋找要輸入的材料,請確保它是干凈,流暢的文本和文本。清理數(shù)據(jù)要比給引擎帶來不必要的混亂要好得多。
輸入第一批數(shù)據(jù)后,您應該開始使用它并從翻譯人員處獲得反饋,看看您是否可以調整引擎。
理想情況下,您可以準備數(shù)據(jù)以使MT引擎更容易:您將擺脫額外的格式和標記,并使引擎更容易解析。MT引擎將會遇到極長的片段和碎片化的內容。
如果有可能得到反饋并根據(jù)它來訓練引擎,我會建議這樣做。應定期重復準備輸入,訓練發(fā)動機和尋求反饋的循環(huán)。
這種不斷改進MT引擎的做法實際上是STP在今年3月獲得認證的機器翻譯后編輯標準ISO 18587的一部分 - 你必須確保有一個持續(xù)的反饋和改進循環(huán)!
在第2部分中,您可以閱讀更多關于Mattia關于神經機器翻譯的想法以及STP如何使用機器翻譯作為另一種技術來幫助翻譯工作。