一插菊花综合网,丝袜美腿亚洲熟女 国产,成人天堂资源www在线,骚妇内射图

好育寶

好育寶

MIT發(fā)布無需語料培訓的機器翻譯引擎

admin 109 188

麻省理工學院的研究人員開發(fā)了一種新穎的“無監(jiān)督”語言翻譯模型——這意味著它可以在沒有人工注釋和指導的情況下運行——這可以導致更快更有效的基于計算機的語言翻譯。

來自谷歌、臉書和亞馬遜的翻譯系統需要訓練模型來在數百萬份文檔中尋找模式,例如法律和政治文檔或新聞文章,這些文檔已經被人類翻譯成各種語言。給定一種語言中的新單詞,他們可以找到另一種語言中的匹配單詞和短語。

然而,這種翻譯數據既費時又難以收集,對于全世界使用的7000種語言中的許多語言來說,可能根本不存在。最近,研究人員一直在開發(fā)“單語”模型,該模型在兩種語言之間翻譯文本,但它們之間沒有直接的翻譯信息。

在本周自然語言處理經驗方法會議上發(fā)表的一篇論文中,麻省理工學院計算機科學和人工智能實驗室(CSAIL)的研究人員描述了一種比這些單語模型更快、更有效的模型。

該模型使用了一種稱為格羅莫夫-瓦瑟斯坦距離的統計度量,基本上是測量一個計算空間中的點之間的距離,并將它們與另一個空間中的相似距離點進行匹配。他們將這種技術應用于兩種語言中的“單詞嵌入”,其中用向量表示的單詞——基本上是數字陣列——與具有相似含義的單詞聚集在一起。在這樣做時,該模型快速對齊兩個嵌入中的單詞或向量,這兩個嵌入通過相對距離最緊密相關,這意味著它們可以被直接翻譯。

在實驗中,研究人員的模型與最先進的單語模型一樣準確——有時甚至更準確——但速度更快,并且只使用一小部分計算能力。

“該模型將兩種語言中的單詞視為一組向量,并通過基本的保留關系將(這些向量)從一組映射到另一組,”論文的共同作者Tommi Jaakkola說,他是CSAIL的研究員,也是電氣工程和計算機科學系以及數據、系統和社會研究所的Thomas Siebel教授。“這種方法可以幫助翻譯低資源語言或方言,只要它們有足夠的單語內容?!?/p>

CSAIL博士生的第一作者大衛(wèi)·阿爾瓦雷斯-梅利斯說:“如果你沒有任何匹配兩種語言的數據,那么這個模型代表了機器翻譯的主要目標之一,即完全無監(jiān)督的單詞對齊?!蹦梢杂成鋬煞N語言,并使用這些距離度量來對齊它們。"

關系最重要。

用于無監(jiān)督機器翻譯的對齊嵌入并不是一個新概念。最近的工作已經訓練神經網絡直接匹配兩種語言的單詞嵌入或矩陣中的向量。然而,這些方法需要在訓練期間進行大量的調整,以使對齊完全正確,這是低效和耗時的。

另一方面,基于關系的距離測量和匹配向量是一種更有效的方法,它不需要太多的微調。無論單詞向量落在給定矩陣的哪個位置,單詞之間的關系(即它們的距離)都將保持不變。比如“父親”的向量可能落在兩個矩陣完全不同的區(qū)域。但“父親”和“母親”這兩個載體,大概總是緊密相連的。

“這些距離是恒定的,”阿爾瓦雷斯-梅利斯說。通過查看距離而不是矢量的絕對位置,您可以跳過對齊,直接匹配矢量之間的對應關系

這就是格羅莫夫-沃瑟斯坦派上用場的地方。這項技術已被用于計算機科學,例如,在平面設計中幫助對齊圖像像素。但這個指標似乎是量身定做的。阿爾瓦雷斯-梅利斯說:“如果一個空間中有一些點或單詞,格羅莫夫-瓦瑟斯坦會自動嘗試找到相應的點簇。另一個空間。”

為了進行訓練和測試,研究人員使用了一個公開可用的word嵌入式數據集,稱為FASTTEXT,它有110個語言對。在這些嵌入和其他嵌入中,越來越頻繁地出現在相似上下文中的單詞具有緊密匹配的向量?!皨寢尅焙汀鞍职帧逼綍r在一起,但離“家”更遠。

MIT發(fā)布無需語料培訓的機器翻譯引擎

提供“軟翻譯”

該模型注意到與其他向量密切相關但不同的向量,并指定相似的距離向量將在另一個嵌入中對應的概率。這有點像“軟翻譯”,阿爾瓦雷斯-梅利斯說,“因為它不只是返回一個詞的翻譯,而是告訴你‘這個向量或詞與這個詞或詞有很強的對應關系,語言在另一個詞里。" "

一個例子是一年中的月份,在許多語言中它們是緊密結合在一起的。該模型將看到一組12個向量,它們在一個嵌入中聚集,并且在另一個嵌入中非常相似。阿爾瓦雷斯-梅利斯說:“這個模型不知道這是幾個月?!??!八恢酪唤M12個點和另一種語言的12個點對齊,但和其他詞不一樣,所以可能組合得很好。通過找到每個單詞的這些對應關系,同時與整個空間對齊?!?/p>

Jaakkola表示,研究人員希望這項工作可以作為將格羅莫夫-瓦瑟斯坦方法應用于機器翻譯系統的“可行性檢查”,從而更快更有效地運行,并獲得更多語言的訪問權限。

此外,該模型的一個可能的好處是,它自動生成一個值,可以解釋為在數字尺度上量化語言之間的相似性。研究人員表示,這可能對語言學研究有用。該模型計算兩個嵌入中所有向量之間的距離,該距離取決于句子結構和其他因素。如果向量非常接近,它們的得分將接近0,越遠,它們的得分越高。比如法語、意大利語等類似的浪漫語言得分接近1,而文言文與其他主要語言得分在6-9之間。

阿爾瓦雷斯-梅利斯說:“這為你提供了一個用類似語言表達數據的良好而簡單的數字...并且可以用來描述語言之間的關系?!?/p>