一插菊花综合网,丝袜美腿亚洲熟女 国产,成人天堂资源www在线,骚妇内射图

好育寶

好育寶

機器翻譯-質(zhì)量輸入問題

admin 114 37

免費翻譯對我們大多數(shù)人來說是一件很棒的事情——我完全希望看到它發(fā)生。鑒于我的整個生意和生計都依賴于銷售翻譯和語言服務,許多人對此感到驚訝。但是,我們需要區(qū)分機器翻譯(MT)目前能用來做什么,不能用來做什么。我相信有一點是我喜歡聽故事,這很好地總結(jié)了這一點:

不需要進入太多的細節(jié),世界應該知道一些關于免費翻譯引擎如何工作的事情——或者,更重要的是,它們最初是如何通過語言獲得的。

每創(chuàng)建一個網(wǎng)頁,作為開發(fā)人員,都會在里面添加語言代碼(不管你知不知道)。所以,谷歌可以理直氣壯地貶損它寫的語言——沒人讀過。然后,他們開始匹配他們找到的所有不同的句子或短語,并賦予它們意義。所以我們基本上有語言1和語言2。機器翻譯引擎查看語言1中的短語是如何書寫的,并檢查該文本是否不同于語言2中的數(shù)百萬不同來源。

因此,當你訪問Google Translate,詢問如何用語言2說出一個短語時,它會為你提供它認為最有可能的回答。一般都是對的。或者說,夠近了。它看到的一些東西可以從引擎訪問的專業(yè)翻譯文檔的平行文本中獲得——所以你可以想象,這將是相當不錯的。

但最終,這種模式依賴于購買和接收越來越多的數(shù)據(jù),并根據(jù)我們說話的方式評估越來越多的內(nèi)容——它可以通過聊天和社交媒體應用程序、博客和網(wǎng)頁來訪問這些信息。問題是更多的數(shù)據(jù)并不會帶來更好的質(zhì)量。事實上,這是相反的意思。這只是意味著它捕捉到了那里的任何東西。

所以它掃描了很多公共領域的內(nèi)容,比如連接達伊沙和沙特阿拉伯的想法的內(nèi)容,所以它認為一個是另一個最有可能的翻譯,或者錯誤地把這些詞映射成其他詞的對應詞。語言。

它不止于此:

毫無疑問,這不是谷歌的故意行為——但正如它在辯護中所說的那樣,”...我們的系統(tǒng)根據(jù)網(wǎng)絡上已有的翻譯自動生成翻譯,所以當用戶指出這樣的問題時,我們表示感謝。”

為了量化這一點,他們的引擎將盲目掃描大量不同語言創(chuàng)建和討論的內(nèi)容,并在這些語言中進行匹配(無需閱讀)。每天涌入網(wǎng)絡的各種語言的數(shù)十億個詞,都在不斷地與國外同類產(chǎn)品進行比較、排列和匹配。

機器翻譯-質(zhì)量輸入問題

這個自動過程的目的不是集中在正確的發(fā)音或我們所知道的“正確性”上,而只是以一種更常見的方式。最根本的問題是,在許多情況下,真正發(fā)生的是包含不正確的數(shù)據(jù)或短語用法的趨勢。這可能不會妨礙大多數(shù)用戶從MT中獲得巨大的價值,無論是作為對話輔助,輔助基本的旅行和生存語言,還是作為學習工具,但這種數(shù)據(jù)收集方法如果依賴于商業(yè)或?qū)I(yè)使用,很可能會導致破壞性的結(jié)果。

不幸的是,隨著社交媒體的增長和輸入機器翻譯的數(shù)據(jù)量和廣度,它們實際上會變得更差,然后變得更好。