「翻譯語言」機(jī)器如何幫助牛奶英語的價(jià)值 - 語言學(xué)
高分辨率,低語境英語已成為多語言本地化的首選支點(diǎn)語言。但是,計(jì)算機(jī)科學(xué)和語言學(xué)的最新進(jìn)展現(xiàn)在使我們能夠從英語中獲得更多 - 從而有助于改進(jìn)自動(dòng)語言翻譯和語音識(shí)別。
這一切始于2013年,當(dāng)時(shí)麻省理工學(xué)院(MIT)的Yevgeni Berzak開始研究一種算法,該算法可以自動(dòng)確定某人用英語寫作的母語,目的是開發(fā)用戶可以定制的語法校正軟件。他或她的語言背景。
反過來,這項(xiàng)研究產(chǎn)生了對(duì)其他語言的語言見解,這要?dú)w功于非母語人士撰寫的英語文本中的語法特征 - 例如刪除或添加介詞,用特定時(shí)態(tài)代替其他語言,或?yàn)E用特定輔助動(dòng)詞 -這可以指回那些作家本地使用的語言,甚至可以顯示這些語言之間的語言接近程度。
不完美的啟示然后,就像一部受歡迎的電視連續(xù)劇一次又一次地獲得一次分拆,它導(dǎo)致了一個(gè)新的項(xiàng)目,最終可以提高機(jī)器翻譯的準(zhǔn)確性。Berzak的新研究側(cè)重于這樣一個(gè)事實(shí):雖然英語是互聯(lián)網(wǎng)上最常用的語言,有超過10億人,但大多數(shù)人都是非母語人士。根據(jù)Berzak的說法,“當(dāng)我們科學(xué)地學(xué)習(xí)英語或者我們?yōu)橛⒄Z進(jìn)行自然語言處理時(shí),這個(gè)特征經(jīng)常被忽視。”
這一最新努力的最終結(jié)果是麻省理工學(xué)院第一個(gè)由非母語人士撰寫的英語句子主要數(shù)據(jù)庫的發(fā)布。研究人員的數(shù)據(jù)集由ESL(英語作為第二語言)學(xué)生編寫的5,124個(gè)句子組成,現(xiàn)在是監(jiān)督通用依賴(UD)句法關(guān)系注釋標(biāo)準(zhǔn)的組織提供的59個(gè)數(shù)據(jù)集之一。隨著更多數(shù)據(jù)的積累和UD注釋,它將實(shí)現(xiàn)更強(qiáng)大的MT引擎培訓(xùn),以用于本地化領(lǐng)域。
這項(xiàng)研究最引人注目的是科學(xué)現(xiàn)在將人類的不完美納入等式。我們正在經(jīng)歷我們都長大的“ 垃圾進(jìn),垃圾出 ”范式。過去沒有提供價(jià)值的語法上不正確的翻譯現(xiàn)在是洞察力和靈感的源泉 - 也就是說,由于麻省理工學(xué)院研究人員花了數(shù)千小時(shí)的努力來完全注釋句子并賦予它們價(jià)值。
語言學(xué)在地圖上除了為語言洞察提供豐富的并行文本源之外,互聯(lián)網(wǎng)還使語言學(xué)家能夠通過推文和其他社交媒體跟蹤新單詞的誕生和傳播。事實(shí)上,在2009年至2011年間,由Jacob Eisenstein領(lǐng)導(dǎo)的佐治亞理工學(xué)院的一組研究人員繪制了這一現(xiàn)象。
他們發(fā)現(xiàn)新單詞(甚至表情符號(hào))傾向于源自城市地區(qū),首先在Twitter上傳播到具有相似經(jīng)濟(jì)和民族構(gòu)成的城市,然后傳播到更廣泛的受眾。在新詞的傳播中,人口統(tǒng)計(jì)學(xué)相似性被發(fā)現(xiàn)是比地理接近度更強(qiáng)的因素。在今天的數(shù)字世界中并不奇怪。
技術(shù)告訴我們我們是什么從大數(shù)據(jù)到小數(shù)據(jù)以及介于兩者之間的一切,互聯(lián)網(wǎng)都充滿了信息。麻省理工學(xué)院和佐治亞理工學(xué)院的項(xiàng)目展示了作為創(chuàng)造性思考者的科學(xué)家如何將可能已被歸檔的數(shù)據(jù)視為錯(cuò)誤和噪音,并利用它來深入了解世界的實(shí)際運(yùn)作方式。我們希望更多年輕和聰明的頭腦能夠向我們展示我們?cè)谡Z言和數(shù)據(jù)鏡像中的反思。