神經(jīng)MT和區(qū)塊鏈即將徹底改變翻譯市場(chǎng)
2018-05-22 08:25:02
神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)現(xiàn)在正在改變世界! 與以前的MT技術(shù)不同,NMT提供更高質(zhì)量的翻譯并且快速提高。 非??臁?按照目前的發(fā)展速度,NMT將在短短一到三年內(nèi)徹底改變傳統(tǒng)的以人為本的翻譯行業(yè),影響超過(guò)60萬(wàn)名語(yǔ)言學(xué)家和21,000家語(yǔ)言服務(wù)提供商(LSPs)。
對(duì)于客戶而言,NMT的年齡將導(dǎo)致大幅度降低定價(jià)和提高速度(即使在需要人類(lèi)的地方)。
然而,為了充分利用NMT波,LSP和企業(yè)需要能夠自動(dòng)處理涉及同時(shí)項(xiàng)目,高工作量,質(zhì)量控制等的復(fù)雜過(guò)程。
一小時(shí)翻譯(OHT)和Booking.com等公司已經(jīng)在使用混合(NMT +人)翻譯方法進(jìn)行此項(xiàng)工作。
為什么神經(jīng)網(wǎng)絡(luò)(NN)很重要
深度學(xué)習(xí)和人工智能現(xiàn)在正在改變世界。這些技術(shù)的應(yīng)用涉及多個(gè)行業(yè)。神經(jīng)網(wǎng)絡(luò)(NN)是這些技術(shù)的基礎(chǔ),可用于更智能的圖像識(shí)別,自動(dòng)駕駛,更強(qiáng)大的數(shù)字個(gè)人助理,X射線分析,改進(jìn)的語(yǔ)音識(shí)別,對(duì)Go和Chess等游戲的掌握。
關(guān)于該領(lǐng)域已經(jīng)寫(xiě)了很多,但簡(jiǎn)而言之,神經(jīng)網(wǎng)絡(luò)模仿人類(lèi)大腦的構(gòu)建方式以及它如何學(xué)習(xí)新的技能/信息。從技術(shù)角度來(lái)看,AI系統(tǒng)可以被看作是幾個(gè)矩陣,分層疊加。每個(gè)矩陣中的細(xì)胞代表神經(jīng)元,它們與下一個(gè)矩陣中的其他細(xì)胞連接,并具有不同程度的“強(qiáng)度”。
頂部矩陣被饋送一些輸入,例如,圖像的像素。輸入通過(guò)單元之間的連接逐層下行到底部矩陣以及底部矩陣的輸出可以是系統(tǒng)被訓(xùn)練產(chǎn)生的任何值,例如,它可以確定圖像是否包含汽車(chē)。
來(lái)自SAP,Salesforce,F(xiàn)acebook甚至OHT平臺(tái)的傳統(tǒng)信息系統(tǒng)每個(gè)都有數(shù)百萬(wàn)行代碼!他們需要數(shù)年時(shí)間才能開(kāi)發(fā),并且需要進(jìn)行無(wú)盡的調(diào)試和改進(jìn),才能繼續(xù)正常運(yùn)行。
神經(jīng)網(wǎng)絡(luò)的一個(gè)驚人之處在于,與傳統(tǒng)IT系統(tǒng)背后的非常長(zhǎng)和復(fù)雜的代碼相比,運(yùn)行它們所需的軟件相對(duì)簡(jiǎn)單,只有幾千行代碼。這是該技術(shù)的一個(gè)非常重要的特性,并且意味著比使基于NN的系統(tǒng)更好或“更智能”比改進(jìn)傳統(tǒng)軟件容易得多。
神經(jīng)網(wǎng)絡(luò)“聰明”且有用的原因主要是它“受過(guò)訓(xùn)練”的數(shù)據(jù),而不是軟件本身的復(fù)雜性。
因此,與神經(jīng)網(wǎng)絡(luò)主要在軟件中的傳統(tǒng)軟件不同,神經(jīng)網(wǎng)絡(luò)的價(jià)值和系統(tǒng)所需的功能主要是訓(xùn)練數(shù)據(jù)的性質(zhì),質(zhì)量和數(shù)量的結(jié)果。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練是一個(gè)相對(duì)簡(jiǎn)單的過(guò)程,將輸入數(shù)據(jù)輸入到系統(tǒng),并對(duì)結(jié)果進(jìn)行檢查,并與期望的結(jié)果進(jìn)行比較。一個(gè)簡(jiǎn)單的過(guò)程調(diào)整細(xì)胞之間的連接以獲得更接近期望結(jié)果的結(jié)果。這樣做幾十萬(wàn)甚至上百萬(wàn)次就可以生成一個(gè)能夠很好地處理指定任務(wù)的神經(jīng)網(wǎng)絡(luò)。顯然,提供給NN的反饋的準(zhǔn)確性對(duì)其培訓(xùn)至關(guān)重要。
在訓(xùn)練之前,完全相同的神經(jīng)網(wǎng)絡(luò)可能毫無(wú)用處,之后會(huì)非常有價(jià)值。
為什么這種技術(shù)性的巨型重要?因?yàn)樗幸粋€(gè)簡(jiǎn)單的含義。使NN系統(tǒng)變得更好很容易。所需要的只是更多的計(jì)算能力和更多的高質(zhì)量輸入。通過(guò)這種方式,與傳統(tǒng)軟件不同,神經(jīng)網(wǎng)絡(luò)不需要架構(gòu)師和產(chǎn)品設(shè)計(jì)人員思考改進(jìn)系統(tǒng)的新方法。他們也不需要杰出的工程師多年工作來(lái)使軟件日益精益求精。
使NN系統(tǒng)變得更好很容易。所需要的只是更多的計(jì)算能力和更多的高質(zhì)量輸入。
技術(shù)與翻譯
在過(guò)去的50年左右,計(jì)算能力呈指數(shù)級(jí)增長(zhǎng)。英特爾聯(lián)合創(chuàng)始人戈登摩爾(Gordon Moore)預(yù)測(cè),早在1965年,硅片上的晶體管數(shù)量每?jī)赡昃蜁?huì)翻一番(摩爾定律)。
為了更好地理解這種指數(shù)增長(zhǎng)的潛力,請(qǐng)考慮以下事項(xiàng):將1米長(zhǎng)的棒加倍25倍使其長(zhǎng)度達(dá)到+ 33,000公里,幾乎是地球直徑的3倍!
繼續(xù)增加25倍(即總共50倍),使其超過(guò)1萬(wàn)億和1250億公里長(zhǎng)!相比之下,太陽(yáng)系的半徑(太陽(yáng)與冥王星之間的平均距離)“僅為”59億公里。
把它用于計(jì)算,50年前計(jì)算機(jī)每秒只能運(yùn)行100次計(jì)算,現(xiàn)在每秒可以處理超過(guò)33億次計(jì)算,并且在50年內(nèi)每秒鐘計(jì)算超過(guò)112,500兆次計(jì)算(假設(shè)當(dāng)前的改進(jìn)速度繼續(xù)),即每秒112,500,000,000,000,000次計(jì)算。
計(jì)算能力的這種提高發(fā)生得非???,隨著時(shí)間的推移,由于其指數(shù)性質(zhì),性能提高越來(lái)越大。無(wú)論計(jì)算能力用于什么,都會(huì)發(fā)生這些改進(jìn)。
促使神經(jīng)網(wǎng)絡(luò)更好的另一個(gè)重要因素是數(shù)據(jù)的數(shù)量和質(zhì)量??紤]一下這樣一個(gè)事實(shí),即今天90%的在線資料(圖片,各種語(yǔ)言的文本等)都不到兩年。越來(lái)越多的內(nèi)容一直在生成。
越來(lái)越多的高質(zhì)量數(shù)據(jù)可在線獲得NMT培訓(xùn)。
這如何適用于翻譯?在過(guò)去的兩三年中,有幾家公司開(kāi)始使用NN進(jìn)行翻譯。這些努力的結(jié)果是驚人的。在這段短時(shí)間內(nèi),NMT在一些地區(qū)的質(zhì)量變得像人類(lèi)一樣,迅速超越了以前的翻譯技術(shù)。
此外,由于以下原因,NMT系統(tǒng)繼續(xù)快速改進(jìn):
由于以下原因,計(jì)算能力增加:如上所述,指數(shù)計(jì)算能力得到改善
分配給這些系統(tǒng)的更多計(jì)算能力,因?yàn)樗鼈儽憩F(xiàn)出了很好的結(jié)果
來(lái)自網(wǎng)上的更多培訓(xùn)材料 - 網(wǎng)上資源和翻譯
商業(yè)客戶創(chuàng)建的翻譯記憶
主動(dòng)翻譯完成培訓(xùn)目的
大規(guī)模提供人類(lèi)反饋的能力,例如,OHT已經(jīng)為NMT供應(yīng)商/用戶運(yùn)行NMT評(píng)級(jí)和反饋?lái)?xiàng)目(迄今為止有超過(guò)一百萬(wàn)個(gè)項(xiàng)目)。
Facebook和Google鼓勵(lì)用戶提供翻譯反饋等。
重要的是要了解變化的速度。以前的技術(shù)改進(jìn)緩慢,因?yàn)閭鹘y(tǒng)的軟件改進(jìn)取決于人類(lèi)開(kāi)發(fā)者。借助NMT,核心技術(shù)可通過(guò)易于添加的額外計(jì)算能力和輸入數(shù)據(jù)快速改進(jìn)其流程。
革命就在這里!
簡(jiǎn)而言之,NMT是一個(gè)海嘯迅速接近;它不是技術(shù)進(jìn)步的“又一次”浪潮。我預(yù)測(cè)世界上所有翻譯的30%到50%將在一到三年內(nèi)使用NMT(可能有一定程度的人為干預(yù))。
NMT是海嘯快速逼近;它不是技術(shù)進(jìn)步的“又一次”浪潮
現(xiàn)在考慮一下:世界上最大的LSP TransPerfect控制著400億美元全球翻譯市場(chǎng)的不到2%。這意味著NMT(包括后期編輯,質(zhì)量控制等)有可能完全打亂市場(chǎng)。
NMT對(duì)超過(guò)600,000位語(yǔ)言學(xué)家和超過(guò)21,000家翻譯機(jī)構(gòu)有直接影響。那些設(shè)法利用這項(xiàng)技術(shù)的人將會(huì)生存下來(lái);其余的將會(huì)有困難的時(shí)候。汽車(chē)行業(yè)也出現(xiàn)了類(lèi)似的模式,汽車(chē)/卡車(chē)(特斯拉等)和NN自動(dòng)化(UiPath)正在取代司機(jī)和辦公室工作人員。
為了駕馭NMT浪潮(避免溺水),LSP和使用NMT系統(tǒng)的主要企業(yè)應(yīng)該能夠處理復(fù)雜的翻譯過(guò)程。 NMT引擎本身不足以用于真正的商業(yè)用途。使用汽車(chē)類(lèi)比,NMT就像汽車(chē)的引擎,而像OHT的混合翻譯服務(wù)這樣的商業(yè)解決方案就是整車(chē)。
為了正常工作,混合(NMT +人類(lèi))翻譯服務(wù)應(yīng)該同時(shí)處理數(shù)十萬(wàn)個(gè)項(xiàng)目,動(dòng)態(tài)選擇正確的NMT,確定需要什么樣的人為干預(yù)以及在哪里進(jìn)行,并確保質(zhì)量控制的順利和順利進(jìn)行。這是一個(gè)復(fù)雜的多步驟過(guò)程。
NMT發(fā)動(dòng)機(jī)就像真正的汽車(chē)發(fā)動(dòng)機(jī)一樣,沉重的金屬塊本身并不是很有用。商業(yè)客戶需要整車(chē),即NMT引擎+程序,才能從NMT中受益。
OHT重點(diǎn)轉(zhuǎn)向成為第一家混合翻譯機(jī)構(gòu)。使用我們的混合翻譯系統(tǒng)(NMT +人類(lèi)),我們已經(jīng)為商業(yè)客戶提供高質(zhì)量,低成本的翻譯。
我們最近發(fā)布了ONES--第一個(gè)獨(dú)立的,基于人的NMT評(píng)估分?jǐn)?shù)。通過(guò)使用ONES,我們可以為“特殊項(xiàng)目”選擇完美的NMT引擎。我們還與少數(shù)幾家最大的NMT供應(yīng)商合作,通過(guò)提供大量的人工翻譯,NMT評(píng)級(jí)和評(píng)估來(lái)訓(xùn)練他們的系統(tǒng)結(jié)果,以及人的反饋和更正等等。更重要的是,我們使用100種語(yǔ)言來(lái)完成這項(xiàng)工作,因?yàn)镹MT的主要問(wèn)題之一是有足夠的材料來(lái)培訓(xùn)英語(yǔ)以外的語(yǔ)言。
OHT的估計(jì)是,到今年年底,我們80%的通用翻譯將使用NMT完成,以比傳統(tǒng)翻譯更低的價(jià)格和更高的速度提供人類(lèi)素質(zhì)。
底線:NMT已經(jīng)在這里。它接管的速度非???- 越來(lái)越多的企業(yè)客戶開(kāi)始享受其好處。
有趣的是,Blockchain是另一項(xiàng)快速發(fā)展的技術(shù),可以幫助NMT實(shí)現(xiàn)市場(chǎng)支配。
區(qū)塊鏈在哪里進(jìn)來(lái)?
翻譯記憶庫(kù)(TM)中存儲(chǔ)著大量現(xiàn)有商業(yè)翻譯。這些TM建立了多年,包含大量數(shù)據(jù)。數(shù)據(jù)以非常適合NMT培訓(xùn)的方式保存。使用這些TM,NMT培訓(xùn)可以跨越式發(fā)展,為企業(yè)客戶制造完美的發(fā)動(dòng)機(jī)。此外,這些TM是先前的投資,所以它們?yōu)槠渌姓邉?chuàng)造的任何未來(lái)收入都是純利潤(rùn)。
那么缺少什么?為了使這些TM易于獲得,需要一個(gè)易于訪問(wèn)的存儲(chǔ)庫(kù)或某種市場(chǎng)。最起碼的要求是可以很容易地搜索源內(nèi)容,同時(shí)確保翻譯只在付費(fèi)時(shí)交付,并且不需要信任將管理所有內(nèi)容的中央供應(yīng)商。由于隱私問(wèn)題,大多數(shù)用戶(企業(yè)或個(gè)人)不會(huì)將他們的TM上傳到某個(gè)中央系統(tǒng)。
基于區(qū)塊鏈的系統(tǒng)可能是理想的解決方案!使用基于區(qū)塊鏈的架構(gòu),TM所有者有可能獲得收入而不會(huì)冒著數(shù)據(jù)隱私的風(fēng)險(xiǎn)。諸如公司,翻譯員等的TM所有者將能夠以一種只會(huì)在付款后才公開(kāi)它的數(shù)據(jù)來(lái)共享他們的數(shù)據(jù)。客戶將能夠根據(jù)元數(shù)據(jù)(如評(píng)級(jí))選擇他們想要的翻譯數(shù)據(jù),翻譯人員可以上傳他們翻譯的常用短語(yǔ),并在每次使用時(shí)都能獲得付費(fèi)(按使用付費(fèi))。
這種體系的財(cái)務(wù)激勵(lì)是清晰的,強(qiáng)大的,并且已經(jīng)存在。 我們的許多客戶很樂(lè)意通過(guò)出售他們的TM來(lái)收回他們過(guò)去的一些翻譯成本。
一旦這種基于區(qū)塊鏈的系統(tǒng)可用,NMT制造商將能夠以多種語(yǔ)言購(gòu)買(mǎi)他們所需的培訓(xùn)數(shù)據(jù),并使他們的NMT立即更好地進(jìn)行業(yè)務(wù)翻譯!
OHT正在建立這樣一個(gè)市場(chǎng),并將在另一篇文章中詳細(xì)闡述這一點(diǎn)。