即使只有一家NMT供應(yīng)商,運(yùn)行基于人員的質(zhì)量分?jǐn)?shù)也是一項(xiàng)重大任務(wù)。它需要多達(dá)4000名評審人員來處理數(shù)千個項(xiàng)目。
這個過程與每一個NMT供應(yīng)商有關(guān),他們希望知道他們系統(tǒng)的真正價值,并從真人那里獲得對其翻譯的反饋。
當(dāng)然,主要的挑戰(zhàn)在于發(fā)現(xiàn)、測試、篩選、培訓(xùn)和監(jiān)控來自不同國家和語言的數(shù)千名評論員——在他們同時從事數(shù)萬個項(xiàng)目的同時監(jiān)控他們的工作。
更好的行業(yè)級質(zhì)量分?jǐn)?shù)
考慮到更大的利益,真正需要的是業(yè)界使用的標(biāo)準(zhǔn)化NMT質(zhì)量評分,它使用相同的基準(zhǔn)、字符串和評審員來衡量各種系統(tǒng),以便比較類似的性能。由于NMT系統(tǒng)在不同類型的材料和語言之間的表現(xiàn)可能差異很大,因此只有使用同一組語言學(xué)家和相同的源材料才能產(chǎn)生真實(shí)的比較結(jié)果。這樣的分?jǐn)?shù)對于單個NMT供應(yīng)商或用戶是有用的,對于試圖決定使用哪個引擎的最終用戶或LSP也是有用的。
在行業(yè)相關(guān)層面進(jìn)行同樣的測試是一項(xiàng)更大的任務(wù)。使用10個NMT引擎、10種類型的材料、10個語言對和40個審閱者,項(xiàng)目參數(shù)可以總結(jié)如下:
假設(shè)評價排名前10的語言對,分別是EN ES、FR、DE、PT-BR、AR、RU、CN、JP、IT和KR;
10類材料——通用、法律、營銷、金融、游戲、軟件、醫(yī)療、科技、科學(xué)、旅游;
Google、微軟(Bing)、亞馬遜、DeepL、Systran、百度、Promt、IBM Watson、Globalese、Yandex等10個領(lǐng)先的(基于web的)引擎;
40名評審員對每個項(xiàng)目進(jìn)行評分。
每次測試30串;和
每串平均12個單詞。
這總共涉及40000個單項(xiàng)測試(10個語言對×10個材料×10個NMT引擎×40個評論者),每個測試至少有30個字符串,即1200000個字符串,每個字符串有12個單詞,結(jié)果約為1440萬個單詞。這種評估是必要的,以創(chuàng)造一個真實(shí)的,可比較的和以人為基礎(chǔ)的NMT質(zhì)量指標(biāo)的例子。)。
挑戰(zhàn)是顯而易見的:為了產(chǎn)生一個實(shí)用的NMT樂譜,4,000名語言學(xué)家需要評估1,200,000個字符串,這相當(dāng)于超過1,400萬個單詞!

項(xiàng)目的規(guī)模,參與者的數(shù)量,招募,培訓(xùn)和監(jiān)督所有審計員的要求,以及確保他們正確地完成工作,顯然是艱巨的任務(wù),即使對于大型NMT玩家,當(dāng)然還有傳統(tǒng)的翻譯。公司。
在合理的時間內(nèi)(例如,不到一天)完成整個過程,以便結(jié)果是“新鮮的”,并且更難關(guān)聯(lián)。
有很多翻譯。機(jī)構(gòu)沒有能力、技術(shù)和運(yùn)營能力定期進(jìn)行如此大規(guī)模的項(xiàng)目。
這是語言學(xué)家的翻譯。公司(OHT)擅長。我們已經(jīng)招聘、培訓(xùn)和測試了50多種語言的數(shù)千名語言專家,并為我們的客戶運(yùn)行了超過100萬個NMT評級和測試項(xiàng)目。2018年4月底,我們將發(fā)布首個以人為本的NMT質(zhì)量指數(shù)(初期覆蓋多個引擎和領(lǐng)域,后期擴(kuò)展),目標(biāo)是在全行業(yè)推廣使用NMT。
OHT是NMT的先驅(qū),也是為數(shù)不多的需要運(yùn)用“混合”模式的譯者之一。機(jī)構(gòu)一種是將NMT與后期編輯結(jié)合起來,以減少提供高質(zhì)量商業(yè)翻譯所需的成本和時間。傳統(tǒng)的人工翻譯領(lǐng)域已經(jīng)發(fā)生了革命,NMT指數(shù)的創(chuàng)建是OHT展示我們對NMT現(xiàn)象的承諾和經(jīng)驗(yàn)的方式。
關(guān)于未來的一句話
未來,我們可以使用同樣的技術(shù)來構(gòu)建更好的NMT質(zhì)量指數(shù)NMT,即深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。建立一個神經(jīng)質(zhì)量系統(tǒng)就像建立一個NMT系統(tǒng)。所需的要素是高質(zhì)量的翻譯、高容量和質(zhì)量評估/反饋。
有了這些組件,就有可能建立一個基于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的質(zhì)量控制系統(tǒng),它會像人一樣閱讀翻譯并給它評分。一旦NMT系統(tǒng)順利運(yùn)行并開發(fā)出可靠的、基于人的質(zhì)量評分/反饋,下一步就是創(chuàng)建一個神經(jīng)質(zhì)量評分。
一旦獲得神經(jīng)質(zhì)量分?jǐn)?shù),通過將神經(jīng)質(zhì)量分?jǐn)?shù)與NMT聯(lián)系起來,就有可能使引擎相互改進(jìn),創(chuàng)建一個自我學(xué)習(xí)和自我改進(jìn)的翻譯系統(tǒng)(顯然,它作為一個閉環(huán)系統(tǒng)沒有任何意義,因?yàn)闆]有額外的外部數(shù)據(jù)就無法改進(jìn))。