一插菊花综合网,丝袜美腿亚洲熟女 国产,成人天堂资源www在线,骚妇内射图

好育寶

好育寶

圣經(jīng)幫助研究人員完善翻譯算法

admin 190 134

為了找到改進(jìn)計(jì)算機(jī)文本翻譯的靈感,達(dá)特茅斯學(xué)院的研究人員轉(zhuǎn)向圣經(jīng)尋求指導(dǎo)。因此,在各種版本的神圣文本上訓(xùn)練的算法可以為不同的受眾將書(shū)面作品轉(zhuǎn)換成不同的風(fēng)格。

互聯(lián)網(wǎng)工具可以廣泛用于翻譯英語(yǔ)和西班牙語(yǔ)等語(yǔ)言。創(chuàng)建樣式轉(zhuǎn)換器——保持同一種語(yǔ)言的文本但轉(zhuǎn)換樣式的工具——看起來(lái)要慢得多。在某種程度上,開(kāi)發(fā)翻譯器的努力因難以獲得所需的大量數(shù)據(jù)而受阻。這就是研究小組求助于圣經(jīng)的地方。

除了世界各地的許多人供精除了上帝的指引,達(dá)特茅斯領(lǐng)導(dǎo)的團(tuán)隊(duì)還在《圣經(jīng)》中看到了“一個(gè)龐大的、此前未開(kāi)發(fā)的對(duì)齊平行文本數(shù)據(jù)集”。除了提供無(wú)限的靈感,每個(gè)版本的圣經(jīng)都包含超過(guò)31,000段經(jīng)文,研究人員使用這些經(jīng)文為機(jī)器學(xué)習(xí)訓(xùn)練集生成超過(guò)150萬(wàn)對(duì)獨(dú)特的源和目標(biāo)經(jīng)文。

根據(jù)發(fā)表在皇家學(xué)會(huì)開(kāi)放科學(xué)雜志上的研究,這不是第一個(gè)為風(fēng)格翻譯創(chuàng)建的并行數(shù)據(jù)集。但它是第一個(gè)使用圣經(jīng)的人。過(guò)去使用的其他文本,從莎士比亞到維基百科條目,提供的數(shù)據(jù)集要小得多,或者不適合學(xué)習(xí)風(fēng)格翻譯的任務(wù)。

“英語(yǔ)圣經(jīng)有許多不同的寫(xiě)作風(fēng)格,這使它成為風(fēng)格翻譯的完美源文本,”達(dá)特茅斯大學(xué)的博士生兼研究論文的主要作者基思·卡爾森說(shuō)。

作為研究團(tuán)隊(duì)的一個(gè)額外的好處,圣經(jīng)已經(jīng)通過(guò)一致使用書(shū)籍,章節(jié)和詩(shī)歌數(shù)字被完全索引??绨姹疚谋镜目深A(yù)測(cè)組織消除了對(duì)齊錯(cuò)誤的風(fēng)險(xiǎn),這種錯(cuò)誤可能由匹配同一文本的不同版本的自動(dòng)方法引起。

達(dá)特茅斯大學(xué)的計(jì)算機(jī)科學(xué)教授丹尼爾·洛克莫爾說(shuō):“《圣經(jīng)》是一個(gè)‘神圣的’數(shù)據(jù)集,可以用來(lái)研究這項(xiàng)任務(wù)?!薄!皫讉€(gè)世紀(jì)以來(lái),人類(lèi)一直在執(zhí)行組織圣經(jīng)文本的任務(wù),所以我們不必相信一個(gè)不可靠的對(duì)齊算法。”

為了定義研究的“風(fēng)格”,研究人員參考句子長(zhǎng)度,被動(dòng)或主動(dòng)發(fā)音的使用,以及可能導(dǎo)致不同程度的簡(jiǎn)單性或文本形式的詞的選擇。根據(jù)這項(xiàng)研究:“不同的表達(dá)方式可能傳達(dá)不同程度的禮貌或與讀者的熟悉程度,并顯示關(guān)于作者的不同文化信息,這些信息對(duì)一些人來(lái)說(shuō)更容易理解?!?/p>

該團(tuán)隊(duì)使用了34種不同版本的圣經(jīng),語(yǔ)言復(fù)雜程度從國(guó)王詹姆斯版到基礎(chǔ)英語(yǔ)圣經(jīng)不等。這些文本被輸入到兩個(gè)算法中——一個(gè)叫做“Moses”的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)和一個(gè)叫做“Seq2Seq”的機(jī)器翻譯中常用的神經(jīng)網(wǎng)絡(luò)框架。

雖然使用不同版本的圣經(jīng)來(lái)訓(xùn)練計(jì)算機(jī)代碼,但最終可以開(kāi)發(fā)出一個(gè)可以為不同受眾翻譯任何書(shū)面文本風(fēng)格的系統(tǒng)。例如,風(fēng)格翻譯可以從“莫比·迪克”中選擇英語(yǔ),并將其翻譯成適合年輕讀者、非英語(yǔ)母語(yǔ)者或各種觀眾的不同版本。

“文本簡(jiǎn)化只是一種特定類(lèi)型的風(fēng)格轉(zhuǎn)換。更廣泛地說(shuō),我們的系統(tǒng)旨在生成與原文意思相同的文本,但使用不同的語(yǔ)言,”卡爾森說(shuō)。

達(dá)特茅斯學(xué)院在計(jì)算機(jī)科學(xué)領(lǐng)域有著悠久的創(chuàng)新歷史?!叭斯ぶ悄堋币辉~是1956年在達(dá)特茅斯創(chuàng)造人工智能研究學(xué)科的會(huì)議上提出的。其他的進(jìn)步包括BASIC語(yǔ)言的設(shè)計(jì)——第一種通用和可訪問(wèn)的編程語(yǔ)言——以及達(dá)特茅斯分時(shí)系統(tǒng),它為現(xiàn)代操作系統(tǒng)做出了貢獻(xiàn)。

圣經(jīng)幫助研究人員完善翻譯算法