一插菊花综合网,丝袜美腿亚洲熟女 国产,成人天堂资源www在线,骚妇内射图

好育寶

好育寶

機器翻譯質(zhì)量的評估方法

admin 197 126

機器翻譯質(zhì)量的評估方法

我們現(xiàn)在已經(jīng)到了機器翻譯幾乎普遍使用的階段。自然,一旦實際的翻譯過程實現(xiàn)了自動化,下一個階段就是對最終產(chǎn)品的質(zhì)量評估。我們現(xiàn)在有許多不同的選擇來評估翻譯的質(zhì)量。這項工作一部分需要人工完成,一部分可以由自動化算法完成。每種方法都有優(yōu)點和缺點。在這里,我們將看看我們的團隊在最近對這個問題的研究中使用的方法。語言質(zhì)量

這是評價翻譯最傳統(tǒng)的方式。最著名的質(zhì)量評估工具是LISA QA。語言錯誤根據(jù)其嚴重程度和類型進行分級:語法、詞匯和標點符號錯誤、數(shù)字錯誤等。這種評估的主要問題是,它在機器翻譯中發(fā)現(xiàn)的錯誤比人工翻譯多得多——比較翻譯變成了一種從糟糕的翻譯中選擇最佳的練習。也未能說明一個事實,大多數(shù)情況下,機器翻譯會被編輯,看似嚴重的錯誤會在下一階段的幾秒鐘內(nèi)被糾正。

編輯距離

令人驚訝的是,并不是所有的語言學家都以同樣的方式理解這個概念。有人把它看作是需要改正的文字量,也有人把它看作是編輯使文字達到要求的質(zhì)量水平所需要的時間。我們團隊采用的是第二種定義——語言提供者需要多長時間才能讓譯文被接受,由質(zhì)量保證部門進行評估。

理論上,編輯距離的比較有助于確定最佳的機器翻譯。但正如他們所說,細節(jié)決定成敗。在這里,需要清楚的了解選擇具體翻譯方案的原因。如果目標是提供可用的未經(jīng)編輯的文本,那么機器翻譯需要被視為最終產(chǎn)品,而如果目標是產(chǎn)生可編輯的翻譯,那么機器翻譯應該被視為簡化和加快翻譯過程的工具。如果機器翻譯是一個產(chǎn)品,關(guān)鍵標準是要糾正的文本量,或者說語言錯誤的數(shù)量和嚴重程度,這些都是用傳統(tǒng)的翻譯評估方法來評估的。但是如果把機器翻譯看作一種工具,主要問題是它在多大程度上提高了翻譯過程的效率, 所以關(guān)鍵的標準是編輯和翻譯花費的時間。另一個問題是主觀因素——每個語言學家都有自己的長處和短處。術(shù)語可能是語言學家的弱點,他們可能需要花很多時間尋找正確的技術(shù)詞匯。另一個可能工作得更慢,因為他們可能必須糾正語法。術(shù)語可能是一個弱點——他們可能需要花費大量時間來尋找正確的技術(shù)詞匯。另一個可能工作得更慢,因為他們可能必須糾正語法。術(shù)語可能是一個弱點——他們可能需要花費大量時間來尋找正確的技術(shù)詞匯。另一個可能工作得更慢,因為他們可能必須糾正語法。

估計編輯距離

計算編輯距離自然是一個昂貴而緩慢的過程。因此,我們的團隊決定估計編輯文本所需的時間,而不是實際編輯它。因此,我們根據(jù)糾正錯誤的時間而不是語言因素來確定三種類型的錯誤。

類型形容嚴重
小錯誤需要幾秒鐘來糾正錯誤。這些錯誤包括數(shù)字錯誤、拼寫錯誤、簡單的語法和文體錯誤等。一個
中等誤差需要十幾秒才能糾正的錯誤。這些可能包括復雜語法結(jié)構(gòu)中的錯誤,詞匯和術(shù)語使用中的錯誤,以及缺乏一致性。
嚴重的錯誤糾正或重寫數(shù)據(jù)段中的錯誤需要花費大量時間。包括曲解原意或表達不清、翻譯不完整、錯用復雜語法結(jié)構(gòu)、錯用復雜詞匯等等。

可以根據(jù)以下邏輯將系數(shù)應用于錯誤:如果更正一個逗號需要幾秒鐘,則更正一個語法錯誤需要更長的時間。編輯過的剪輯需要更長的時間來糾正。雖然原理相當簡單,但人為錯誤是評估過程中不準確的主要來源。我們發(fā)現(xiàn),盡管編輯使用的標準發(fā)生了變化,但他們?nèi)匀焕^續(xù)根據(jù)語言標準來評估翻譯。這一結(jié)論的依據(jù)是,在用這種方法分析的所有批次中,分數(shù)與語言質(zhì)量的評價結(jié)果有關(guān),而與實際編輯距離無關(guān)。

相似百分比

另一種廣泛使用的方法是將未經(jīng)編輯的譯文與編輯過的版本進行比較。雖然這種想法乍一看似乎很有吸引力,因為更正越少,原文的翻譯就越好,但在實踐中,并沒有發(fā)現(xiàn)這種方法是有效的。首先,用來評估相似度的算法通常是相當不準確的。比如他們經(jīng)常把大寫字母改成小寫字母,相當于把整個單詞都改了。這種方法不能提供信息的第二個原因是,編輯器使用了卡特彼勒軟件中的過濾器選項。例如,一個文本可能包含一個術(shù)語的十幾個例子,但是編輯器將使用查找和替換功能來改變它。這只需要幾秒鐘就可以完成,但編輯后的文本可能會很大。

機器翻譯質(zhì)量的評估方法
自動化質(zhì)量評估工具

這幾天關(guān)于BLEU,hLepor,COMET,CHRF+的討論很多。如今,使用這些算法來評估翻譯質(zhì)量已經(jīng)成為一種時尚。它們確實提供了許多優(yōu)勢:快速評估,幾乎零成本,并且這些工具允許用戶非??焖俚乇容^幾十個備選翻譯。但是,如果不小心使用這些工具,比較結(jié)果很容易被誤解。所有可用的工具將評估一個文本和另一個文本之間的相似性。也就是說,如果這些工具被提供了由人類完成的兩種翻譯,而沒有使用參考語料庫中包含的短語,那么這些翻譯可能被評定為比使用這種短語的機器翻譯更差。這使我們研究團隊的工作變得復雜,并導致他們得出錯誤的結(jié)論。使用這個工具的最好方法是通過比較新版本和舊版本來衡量質(zhì)量的提高。比較許多不同的機器翻譯系統(tǒng), 可以得出結(jié)論,提供最佳結(jié)果的系統(tǒng)是用于參考翻譯的系統(tǒng)(許多譯者使用公共機器翻譯系統(tǒng)來幫助他們完成翻譯是一個公開的秘密)。沒有它機構(gòu)授權(quán)的“人類”翻譯)。

另一個明顯的缺點是比較需要參考譯文。

結(jié)論

簡單任務的自動化是我們共同未來不可避免的一個方面。我們擁有可靠的自動評估工具只是時間問題。但到目前為止,完全依賴它們還為時過早。至少在未來幾年內(nèi),人工工具的使用和人類專家的評估仍將是正確評估機器翻譯質(zhì)量的標準方法。關(guān)鍵是對整個過程采取明智和批判的態(tài)度。