谷歌的神經(jīng)機(jī)器翻譯系統(tǒng):架起了人機(jī)翻譯的鴻溝,昨天在ARXIV.ORG上引入了谷歌的神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT),并將機(jī)器心翻譯成摘要,并將其推薦給網(wǎng)站(www. jqIZHIXix.com)。搜索博客發(fā)表了一篇介紹該研究的文章,并宣布GNMT已經(jīng)投入到非常難的漢英雙語(yǔ)的生產(chǎn)中,這引起了業(yè)界的極大關(guān)注。
十年前,我們推出了Google Translate,其背后的核心算法是基于短語(yǔ)的機(jī)器翻譯。攻勢(shì)仍然是一個(gè)艱難的目標(biāo)。
今天,我們宣布谷歌神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT)的發(fā)布,它使用迄今為止最先進(jìn)的培訓(xùn)技術(shù)來(lái)實(shí)現(xiàn)機(jī)器翻譯質(zhì)量的最大改進(jìn)。對(duì)于我們的發(fā)現(xiàn)的全部細(xì)節(jié),請(qǐng)參閱我們的論文,谷歌的神經(jīng)。機(jī)器翻譯系統(tǒng):彌補(bǔ)人與機(jī)器翻譯之間的鴻溝(見本文末尾){ 1 }。
幾年前,我們開始使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)直接學(xué)習(xí)輸入序列(如一種語(yǔ)言中的句子)到輸出序列(另一種語(yǔ)言中的相同句子)的映射。RASE,然后在很大程度上獨(dú)立地翻譯它們。神經(jīng)機(jī)器翻譯(Neuro-Machine.,NMT)將整個(gè)輸入句子作為翻譯的基本單位,其優(yōu)點(diǎn)在于它比以往的基于短語(yǔ)的翻譯系統(tǒng)要求更少的工程設(shè)計(jì),當(dāng)NMT被首次提出時(shí),它達(dá)到了與基于短語(yǔ)的翻譯系統(tǒng)相同的精度。中型公共基準(zhǔn)數(shù)據(jù)集的翻譯系統(tǒng)
從那時(shí)起,研究人員提出了許多改進(jìn)NMT的技術(shù),包括模擬外部對(duì)齊模型以處理稀有詞{3},使用注意力來(lái)對(duì)齊輸入和輸出詞{4},以及將詞分成更小的單元以處理稀有詞{5,6}。NMT的速度和準(zhǔn)確性還沒有滿足成為像Google Translate這樣的生產(chǎn)系統(tǒng)的要求。我們的新論文{1}描述了我們?nèi)绾慰朔筃MT工作在非常大的數(shù)據(jù)集上的許多挑戰(zhàn),以及我們?nèi)绾螛?gòu)建一個(gè)足夠快速和準(zhǔn)確的系統(tǒng),以便進(jìn)行打賭。ER翻譯谷歌的用戶和服務(wù)。
來(lái)自比較評(píng)估的數(shù)據(jù),其中人類評(píng)估者比較給定源語(yǔ)句的翻譯質(zhì)量。評(píng)分范圍從0到6,對(duì)于無(wú)意義翻譯為0,對(duì)于完美翻譯為6。
下面的可視化顯示了GNMT將漢語(yǔ)句子翻譯成英語(yǔ)句子的過程。首先,網(wǎng)絡(luò)將漢語(yǔ)句子中的單詞編碼為一列向量,每個(gè)向量表示迄今為止所讀的所有單詞(編碼器)的含義。讀取后,解碼器開始工作——一次生成一個(gè)英語(yǔ)句子(Decoder)。為了在每一步中正確地生成翻譯后的單詞,解碼器將重點(diǎn)放在與生成英語(yǔ)單詞最相關(guān)的編碼中文向量的權(quán)重分布上(at)。張力和藍(lán)色鏈接的透明度表明解碼器對(duì)編碼字的關(guān)注。
以人類評(píng)價(jià)的平行比較為標(biāo)準(zhǔn),GNMT的翻譯與以往的基于短語(yǔ)的制作系統(tǒng)相比有了很大的改進(jìn)。在雙語(yǔ)人類評(píng)價(jià)員的幫助下,我們測(cè)量了來(lái)自維基百科和新聞網(wǎng)站的樣本句子,發(fā)現(xiàn)GNMT減少了翻譯。N在多個(gè)主要語(yǔ)言對(duì)中的誤差超過55-85%。
我們的系統(tǒng)產(chǎn)生一個(gè)翻譯案例,它的輸入句子從一個(gè)新聞網(wǎng)站中取樣。這個(gè)地址(https:驅(qū)動(dòng)器.google.comfiled0B4-Ig7UAZe3BSUYweVo3eVhNY3cviewusp=.)允許您看到來(lái)自新聞網(wǎng)站和書籍的輸入句子的更多隨機(jī)取樣的翻譯樣本。
除了今天發(fā)表這篇研究論文,我們還宣布GNMT已經(jīng)被投入到一個(gè)非常困難的語(yǔ)言到英語(yǔ)的翻譯中。GNMT產(chǎn)品部署使用我們的開放式機(jī)器學(xué)習(xí)工具包TensorFlow和張量處理單元,它們?yōu)椴渴疬@些強(qiáng)大的GNMT模型提供足夠的計(jì)算能力,并滿足Google Translate產(chǎn)品的嚴(yán)格延遲要求。nese-to-English翻譯是Google Translate支持的10000多種語(yǔ)言對(duì)之一,我們將在未來(lái)幾個(gè)月繼續(xù)將我們的GNMT擴(kuò)展到更多的語(yǔ)言對(duì)。
機(jī)器翻譯遠(yuǎn)未完全解決。GNMT仍然會(huì)犯一些人類譯者從未犯過的大錯(cuò)誤,比如在翻譯專有名詞或稀有名詞時(shí)遺漏和錯(cuò)誤,以及在不考慮段落或頁(yè)面上下文的情況下單獨(dú)翻譯句子。為了給我們的用戶提供更好的服務(wù),我們還有更多的工作要做。但是GNMT代表了一個(gè)重要的里程碑。我們想與過去幾年中為這項(xiàng)研究做出貢獻(xiàn)的許多研究人員和工程師一起慶祝,無(wú)論是來(lái)自Google還是來(lái)自更廣泛的社區(qū)。
Google Brain團(tuán)隊(duì)和Google翻譯團(tuán)隊(duì)參與了這個(gè)項(xiàng)目,Nikhil Thorat和Big Picture也幫助可視化了這個(gè)項(xiàng)目。
論文:谷歌神經(jīng)機(jī)器翻譯系統(tǒng):彌補(bǔ)人機(jī)翻譯的鴻溝
翻譯后摘要:神經(jīng)機(jī)器翻譯(NMT)是一種端到端的自動(dòng)翻譯學(xué)習(xí)方法,有望克服傳統(tǒng)的基于短語(yǔ)的翻譯系統(tǒng)的缺點(diǎn),不幸的是,眾所周知,NMT系統(tǒng)訓(xùn)練的計(jì)算成本和翻譯FIE。此外,大多數(shù)NMT系統(tǒng)難以處理稀有字,這些問題阻礙了NMT在實(shí)際部署和服務(wù)中的應(yīng)用,因?yàn)樵趯?shí)際應(yīng)用中,精度和速度是至關(guān)重要的。在這項(xiàng)工作中,我們提出GNMT,谷歌的神經(jīng)機(jī)器翻譯。我們的模型由一個(gè)深度LSTM網(wǎng)絡(luò)組成,其中八個(gè)編碼器和八個(gè)解碼器使用注意和剩余連接。為了提高并行性和減少訓(xùn)練時(shí)間,我們的注意機(jī)制將解碼器的底層連接到頂層。為了加快最終的翻譯速度,我們?cè)谕评磉^程中使用了低精度的操作。為了改進(jìn)對(duì)稀有詞的處理,我們將詞分成一組有限的公共子詞單元,這些子詞單元既是輸入又是輸出。字符界定模型的靈活性和詞界定模型的有效性,自然地處理了稀有詞的翻譯,最終提高了系統(tǒng)的整體精度。激怒生成可能覆蓋源語(yǔ)句中所有單詞的輸出語(yǔ)句。在WMT'14英法英德基準(zhǔn)測(cè)試中,GNMT取得了與當(dāng)前最佳結(jié)果相當(dāng)?shù)慕Y(jié)果。與基于谷歌的短語(yǔ)系統(tǒng)相比,壓縮翻譯錯(cuò)誤平均為60%。
{ 1 }谷歌神經(jīng)機(jī)器翻譯系統(tǒng):彌補(bǔ)人與機(jī)器翻譯之間的鴻溝,雍慧武、Mike Schuster、支峰晨、Quoc V. Le、Mohammad Norouzi、Wolfgang Macherey、Maxm KRikun、袁曺、Pig、Y、Y、Y、Y、Y、Yukasz Kaiser,Stephan Gouws,Yoshikiyo Kato,Taku Kudo,Hideto Kazawa,Keith Stevens,George Ku.,Nishant Patil,Wei.,Cliff.,Jason Smith,Jason Riesa,Alex Rudnick,Oriol Vinyals,Greg Corrado,Macduff Hughes,Jeffrey Dean.技術(shù),2016。
{ 2 }序列與神經(jīng)網(wǎng)絡(luò)的序列學(xué)習(xí),Ilya Sutskever,OrOL Viyales,Quoc V.L.神經(jīng)信息處理系統(tǒng)的進(jìn)展,2014。
{ 3 }解決神經(jīng)機(jī)器翻譯中的罕見詞問題,Minh Thang Luong,Ilya Sutskever,Quoc V. Le,Orio-Viyales,WojCij.ZaRMBA。計(jì)算語(yǔ)言學(xué)協(xié)會(huì)第五十三屆年會(huì)論文集,2015。
主修臨床醫(yī)學(xué)英文翻譯{ 4 }神經(jīng)機(jī)器翻譯,通過聯(lián)合學(xué)習(xí)對(duì)齊和翻譯,Dzmitry Bahdanau,Kyunghyun Cho,Yoshua Bengio。學(xué)習(xí)表示國(guó)際會(huì)議,2015。
{ 5 }日本和韓國(guó)的語(yǔ)音搜索,Mike Schuster和Kaisuke Nakajima。IEEE聲學(xué)、語(yǔ)音和信號(hào)處理國(guó)際會(huì)議,2012。
{ 6 }神經(jīng)機(jī)器翻譯罕見詞的子詞單位,Rico Sennrich,Barry Haddow,Alexandra Birch。計(jì)算語(yǔ)言學(xué)協(xié)會(huì)第五十四屆年會(huì)論文集,2016。