目前機(jī)器學(xué)習(xí)已成為一種非常有用的翻譯工具,但仍存在一些不足之處。其中之一就是逐字翻譯的趨勢(shì),這會(huì)導(dǎo)致嚴(yán)重的錯(cuò)誤。Google在其iResearch博客上發(fā)布了一篇有趣的帖子,詳細(xì)介紹了問題的本質(zhì)和解決辦法。
Jakob Uszkoreit,公司的自然語(yǔ)言處理單元,給出了很好的解釋??紤]以下兩句話:我穿過(guò)街道到岸邊;我穿過(guò)河流到岸邊。顯然,每個(gè)句子中的岸邊指的是不同的東西,但是逐字翻譯算法我很可能會(huì)選擇錯(cuò)誤的意思,因?yàn)樗恢滥募毅y行是正確的,除非它能看到句子的結(jié)尾。如果你注意它,你會(huì)發(fā)現(xiàn)歧義處處可見。我會(huì)改寫這個(gè)句子。當(dāng)然,翻譯系統(tǒng)不會(huì)選擇這樣。如果我們對(duì)這樣一個(gè)簡(jiǎn)單的句子修改神經(jīng)網(wǎng)絡(luò),將會(huì)是非常低效的。
Google的解決方案是所謂的注意機(jī)制,這意味著在翻譯軟件中內(nèi)置了一個(gè)稱為轉(zhuǎn)換器的系統(tǒng)。逐個(gè)比較句子中的單詞,以確定它們是否以關(guān)鍵方式相互作用,例如,看他或她是否在說(shuō)話,或者像bank這樣的單詞是否以特定方式表達(dá)。她的話,如下面的GIF所示。如果這一切聽起來(lái)都很熟悉,可能是因?yàn)槟阍诒局茉缧r(shí)候讀到一個(gè)故事,Google的翻譯競(jìng)爭(zhēng)對(duì)手DeepL也在使用聚焦機(jī)制。該公司的聯(lián)合創(chuàng)始人提到了這一點(diǎn),他們正在努力工作,他甚至提到了articl。e是關(guān)于Google的,但是很明顯他們的產(chǎn)品與Google不同,非常有效,甚至比后者更好。
有趣的是,Google的方法讓人們有機(jī)會(huì)了解系統(tǒng)是如何工作的,因?yàn)門ransformer給每個(gè)單詞打分,說(shuō)明它與其他單詞的相關(guān)性如何,y你可以看到它認(rèn)為相關(guān)的詞,或者潛在的相關(guān):酷,對(duì)吧嗯,我想是的。但是還有一種模糊性,因?yàn)樵谟⒄Z(yǔ)中,它可以指街道或動(dòng)物,你必須看到最后一個(gè)詞來(lái)確定銀行的含義。人腦可以自動(dòng)計(jì)算和區(qū)分,但是機(jī)器仍然必須被教導(dǎo)。