翻譯公司參加了今年的EMNLP大會,該大會于2018年10月31日至11月4日在比利時布魯塞爾舉行。EMNLP代表自然語言處理中的經(jīng)驗(yàn)方法,由計(jì)算語言學(xué)協(xié)會(ACL)組織。
該會議每年舉辦20多年,吸引了自然語言處理研究領(lǐng)域的與會者。在任何與人工智能相關(guān)的活動繁榮的背景下,參與人數(shù)激增至2500人,是2017年的兩倍多。來自世界各地的研究人員聚集在一起,分享來自NLP廣度最新研究的見解。
每年大會召開前,研究人員都要將論文提交給大會考官審議。EMNLP 2018收集了一系列主題的論文,包括語言模型、口語處理、文本挖掘、自然語言生成、機(jī)器翻譯和NLP機(jī)器學(xué)習(xí)。
WMT18共享機(jī)器翻譯任務(wù)(參與者) 種類阿爾托大學(xué) | 學(xué)術(shù)界 | 芬蘭 |
空軍研究實(shí)驗(yàn)室 | 政府 | 美國 |
阿里巴巴集團(tuán) | 公司的 | 中國 |
博?阿紫?一、大學(xué) | 學(xué)術(shù)界 | 火雞 |
查爾斯大學(xué) | 學(xué)術(shù)界 | 捷克共和國 |
臉書人工智能研究 | 公司的 | 美國 |
全球音頻通信技術(shù) | 公司的 | 中國 |
賈達(dá)夫布爾大學(xué) | 學(xué)術(shù)界 |
2018年提交的2231篇長短論文中,只有不到四分之一(549篇)被錄取。受邀論文的作者被邀請以演講(221)或海報(bào)(328)的形式展示他們的研究。包含選定論文的研究重點(diǎn)的海報(bào)在大廳的一系列攤位上展示。參與者可以瀏覽選擇并與作者討論海報(bào)的主題。
會議提交材料的地理分布顯示,亞洲的參與程度很高(42.5%)。32.1%的投稿來自北美,20.9%來自歐洲,其他投稿來自拉丁美洲、非洲、中東和大洋洲。
亞洲和美國在EMNLP 2018大會上也有大量贊助商,而歐洲贊助商的供給明顯不足。
許多會議贊助商包括谷歌、臉書、蘋果、亞馬遜、微軟、彭博、百度、Grammarly、ebay、甲骨文、易圖、搜狗、Duolingo等等。事實(shí)上,有兩個歐洲國家公司參與進(jìn)來。對于大規(guī)模技術(shù)公司總的來說,EMNLP不僅僅是一個分享自己最新NLP研究成果的機(jī)會,更是主動向與會者求賢:從學(xué)術(shù)研究界,AI起步。公司和大規(guī)模技術(shù)的研究人員。
分享的問題......
機(jī)器翻譯在EMNLP大會中并不是一個小部分,它有自己的會議流程,被稱為機(jī)器翻譯大會(WMT)。WMT于2006年開始提供一系列研討會作為EMNLP,并于2016年成為一個綜合性會議。EMNLP組織者ACL實(shí)際上最初被命名為機(jī)器翻譯和計(jì)算語言學(xué)協(xié)會(AMTCL ),并于1962年更名。成立六年后。
WMT18共享新聞任務(wù):每種語言對的前3名溫納第三廣場中文→英文 | 紐運(yùn)輸有限公司 | 在線-B | 劍橋大學(xué) |
捷克語→英語 | 查爾斯大學(xué) | 愛丁堡大學(xué) | 在線-B |
英語→中文 | 騰訊 | Unisound | 全球音頻通信技術(shù) |
英語→捷克語 | 查爾斯大學(xué) | 愛丁堡大學(xué) | 在線-B |
英語→愛沙尼亞語 | 波浪號 | NICT | 波浪號(不同的NMT發(fā)動機(jī)) |
英語→芬蘭語 | NICT | 赫爾辛基大學(xué) | 愛丁堡大學(xué) |
英語→德語 | 臉書人工智能研究 | 在線-B | 微軟 |
英語→俄語 | 阿里巴巴集團(tuán) | 在線-G |
EMNLP 2018主辦了第三屆機(jī)器翻譯大會(WMT18)。所有被接受的論文都包含在數(shù)千頁的會議記錄中。
許多講座和海報(bào)側(cè)重于報(bào)告“共享任務(wù)”的結(jié)果,這是一組研究人員試圖通過以不同方式處理任務(wù)來解決的一組預(yù)設(shè)問題。宣布了為WMT18做準(zhǔn)備的七項(xiàng)常見任務(wù):
新聞翻譯任務(wù)
生物醫(yī)學(xué)翻譯任務(wù)
多式聯(lián)運(yùn)翻譯任務(wù)
度量任務(wù)(評估給定參考翻譯的機(jī)器翻譯質(zhì)量)
質(zhì)量評估任務(wù)(在沒有任何參考的情況下評估MT質(zhì)量)
自動編輯后的任務(wù)
并行語料庫過濾任務(wù)
頭條任務(wù)是新聞翻譯分享任務(wù),共收到32條機(jī)構(gòu)103份意見書。鑒于其受歡迎程度和“初級分享任務(wù)”的地位,2018機(jī)器翻譯大會論文成果中均涉及新聞翻譯任務(wù)。為了共享任務(wù),32機(jī)構(gòu)組成了35個不同的團(tuán)隊(duì)。這項(xiàng)任務(wù)包括建立一個英語和七種語言(漢語、捷克語、愛沙尼亞語、德語、芬蘭語、俄語和土耳其語)之間的機(jī)器翻譯系統(tǒng)。然后,機(jī)器翻譯輸出由人類對照由本地專業(yè)翻譯人員翻譯的測試集進(jìn)行評估,這些翻譯人員根據(jù)他們的領(lǐng)域知識進(jìn)行選擇。
測試集由每對語言約3000個句子組成。將1500個英語句子翻譯成其他語言,將1500個句子翻譯成英語。愛沙尼亞語因?yàn)槭?018年新增的語言對,所以測試集更大。對于14個語言對中的每一個,一個譯者翻譯句子,而第二個譯者評估作品的樣本并給第一個翻譯打分。
通過翻譯質(zhì)量的直接評估(DA),機(jī)器翻譯引擎的輸出由人類、915人和584名研究人員進(jìn)行評估。評估者被要求在100分鐘內(nèi)指出翻譯的句子在多大程度上表達(dá)了機(jī)器翻譯系統(tǒng)人工翻譯的句子的意思。
其中包括五個在線機(jī)器翻譯服務(wù)的神秘貢獻(xiàn),涵蓋39種語言對。三個匿名在線服務(wù)排名前三。ONLINE-B已經(jīng)在所有參賽的MT系統(tǒng)中排名前三,14個語言對中有7個排名第一、第二或第三。每個系統(tǒng)可能不會出現(xiàn)在所有的翻譯任務(wù)中。每個語言對的前三名團(tuán)隊(duì)如下:一個不完整的MT系統(tǒng)(它在以下指標(biāo)中排名第四,但根據(jù)另一個指標(biāo)在技術(shù)上并列第二)值得一提的是:ModernMT的生產(chǎn)引擎,這是一個由translation聯(lián)合開發(fā)的機(jī)器翻譯引擎,這使它成為英德對的第二層。Translated.net首席執(zhí)行官M(fèi)arco Trombetti在LinkedIn上發(fā)布了一篇慶祝團(tuán)隊(duì)成就的文章:“讓我印象深刻的是1)這是MMT第一次參加。2)MMT未提交研究原型, 但它目前的企業(yè)產(chǎn)品是基于MMT github上已經(jīng)提供給大家的軟件。"

translated不僅為共享任務(wù)提交了企業(yè)機(jī)器翻譯產(chǎn)品,還將捷克語和德語測試集翻譯成了英語。
這篇論文的結(jié)論是,“除了在14個被檢查的翻譯方向中表現(xiàn)最好的系統(tǒng)之外,結(jié)果顯示,對于某些語言對,機(jī)器翻譯的技術(shù)水平與人工翻譯非常接近。”但是,論文還在繼續(xù)?!霸谧龀鰪?qiáng)有力的主張之前,我們必須仔細(xì)考慮評估方法(個別句子的DA)?!?/p>
根據(jù)關(guān)于新聞翻譯共享任務(wù)的研究結(jié)果的論文,新聞翻譯共享任務(wù)由歐盟的地平線2020研究和創(chuàng)新計(jì)劃以及根據(jù)許可協(xié)議連接歐洲的設(shè)施提供部分資助。
NMT《向上》研究
自然語言處理已經(jīng)成為一個日益活躍的研究領(lǐng)域,更廣泛的NLP領(lǐng)域的機(jī)器翻譯研究正在蓬勃發(fā)展。翻譯公司通過跟蹤提交到研究門戶arXiv的NMT論文數(shù)量,定期監(jiān)控神經(jīng)機(jī)器翻譯(NMT)的研究活動。有一個明顯的上升趨勢,微軟、谷歌、亞馬遜和臉書都是熱情的貢獻(xiàn)者。
由于神經(jīng)機(jī)器翻譯的研究沒有放緩的跡象,并且在2018年吸引了更多大型科技企業(yè)的興趣,NMT在整個本地化供應(yīng)鏈中的采用和應(yīng)用變得更加成熟,并將繼續(xù)影響生產(chǎn)力和定價,改變自然語言行業(yè)的格局。