翻譯應用程序如何解決令人尷尬的錯誤
2018-10-12 14:01:25
翻譯應用程序正在變得越來越好,但它們仍然不完美,尤其是少數民族語言。人工智能和深度神經網絡可以幫助解決問題嗎?
該公司表示,今年夏天在俄羅斯舉行的世界杯期間,谷歌翻譯的使用率大幅上升,因為粉絲試圖與他們的主人和來自世界各地的粉絲進行對話。
“體育場”和“啤酒”這兩個詞的需求量特別高。
如今,傳統的短語手冊即將問世。英國文化協會最近的一項調查發(fā)現,16至34歲的人中有近三分之二現在依靠翻譯應用來幫助導航當地的行話。
雖然這些應用程序無疑正在變得越來越好,但它們仍然不完全可靠 - 接受調查的人中有五分之一表示,由于手機上的錯誤翻譯,他們在度假時會遇到誤解。
對于非主流語言的發(fā)言者來說,這個問題特別嚴重。
例如,威爾士人注意到一些特別“糟糕”的翻譯。例如,一個警告標志“爆炸進行中”被稱為“Gweithwyr yn ffrwydro”或“工人爆炸”。
今年夏天,谷歌翻譯用戶發(fā)現18次打字“狗”產生了一個毛利語翻譯讀物:“世界末日時鐘是十二點三分鐘我們正在經歷人物和世界上的戲劇性發(fā)展,這表明我們越來越接近結束時間和耶穌的回歸?!?/span>
妻子蛋糕和邪惡的水:自動翻譯的危險
那么為什么在超級計算機和機器學習時代仍然會發(fā)生翻譯故障呢?
媒體標題觀看:Google的翻譯耳機已經過測試
一個大問題是單詞通常具有多個含義。正如他們所說的那樣,這些同形異義詞不僅會給度假者帶來尷尬,也會給政府帶來尷尬。
以英國政府7月出版的德國版英國脫歐白皮書為例,將“民主運動”一詞翻譯成“民主運動” - 其中“?bung”意味著體育鍛煉而不是練習。
為了應對這樣的錯誤,翻譯應用程序不斷改進應用機器學習的方式。他們利用以前翻譯過的文本來提供答案,檢查之前使用過單詞的上下文,并選擇最可能的含義。
今年早些時候,微軟宣布它的翻譯質量達到了“人類平價”。一組中文新聞文章被機器翻譯成英文,一組獨立專家發(fā)現它們與兩位專業(yè)翻譯人員提供的翻譯相同。
微軟表示,這一突破的關鍵是使用深度神經網絡,以及統計機器翻譯。
簡而言之,這涉及通過在每個方向上多次回溯結果,每次比較,對比和學習,以類似于人類的方式來完善第一個“粗略”翻譯。
圖片版權所有MICROSOFT圖片說明
翻譯系統已經基于從過去學到的所有文檔,對每種語言的語法句子有一個很好的概念。
“現代翻譯系統不是編寫手工制作的規(guī)則來翻譯語言,而是將翻譯視為學習現有人類翻譯語言之間文本轉換的問題,并利用應用統計學和機器學習的最新進展,”技術研究員黃學東解釋道,語言和語言,在微軟研究院。
達到人類平價聽起來就像一個令人印象深刻的成就 但即便是微軟承認翻譯歷史新聞文章與翻譯現場人類對話并不相同,其中成語,口音和方言的細微差別提出了更大的挑戰(zhàn)。
去年,谷歌推出了名為Pixel Buds的無線入耳式耳機,它可以實時翻譯40種語言 - 盡管它能夠準確地做到這一點仍有爭議。該公司表示,總部位于紐約的初創(chuàng)公司Waverly Labs開發(fā)了自己的Pilot Translating Earpiece和智能手機應用程序,可近乎實時翻譯15種語言。
圖片版權WAVERLY LABS圖片說明
但是當你試圖在兩種語言之間進行翻譯時,如果沒有這么廣泛的翻譯文檔數據庫可供學習 - 例如僧伽羅語到普什圖語 - 挑戰(zhàn)就更大了。
通過將僧伽羅語翻譯成英語然后將結果翻譯成普什圖語,可以產生各種翻譯,但這清楚地引入了上面已經提到的類型的錯誤。
在多個毛利犬的世界末日呈現的情況下,奇怪結果的一個原因是,對于罕見的語言,過度依賴兩種語言中存在的文檔:在這種情況下,圣經。
“如果你使用來自舊手稿的平行句來訓練你的模型,并嘗試翻譯現在人們之間的談話,那么模型將會非常混亂,因為今天的談話的內容和風格將與你將要的非常不同在手稿中找到,“Facebook AI研究員Guillaume Lample說。
“此外,該模型很可能會產生它在手稿中找到的詞段。這種問題很可能發(fā)生在資源較少的語言中,并行句子的數量非常小,而舊文檔也是如此。將代表大量的整體并行數據?!?/span>