谷歌目前正在努力改善計算機閱讀語言的方式。
互聯(lián)網(wǎng)服務(wù)巨頭的科學(xué)家正在為研究人員提供一系列工具,幫助個人電腦、平板電腦和手機識別和理解某些單詞及其背景之間的差異。
比如很多美國人也是“階梯”和“后者”的意思,意思是很難區(qū)分兩者。
類似的問題也存在于移動設(shè)備的鍵盤輸入中,尤其是IME鍵盤。例如,當(dāng)用戶在鍵盤上滑動手指時,“Yankees”和“take”的輸入模式看起來很相似。這使得設(shè)備更難準(zhǔn)確地知道或預(yù)測用戶試圖寫什么。
科技網(wǎng)站EWEEK.com報道稱,谷歌正在提供數(shù)據(jù)集,研究人員可以使用這些數(shù)據(jù)集來嘗試優(yōu)化計算機閱讀和聽到單詞的方式,以解決問題。
語言模型計算機使用上下文的一種方式是語言模型——一種通過概率分布為一系列單詞分配概率的技術(shù)。

這用于預(yù)測鍵盤,以及許多其他自然語言處理應(yīng)用,包括語音識別、機器翻譯、拼寫糾正、查詢建議和信息檢索。
但是,在評價這種復(fù)雜系統(tǒng)的好壞時,有一點可能是復(fù)雜的,那就是錯誤的歸因。
谷歌認為,它有一套標(biāo)準(zhǔn)的大詞,其基準(zhǔn)可以很容易地進行比較,并可以用新的建模技術(shù)進行實驗,這可能是一種改善計算機語言建模的潛在方法。
因此,它發(fā)布腳本,將一組公共數(shù)據(jù)轉(zhuǎn)化為包含十億以上單詞的語言模型,并具有標(biāo)準(zhǔn)化的訓(xùn)練和測試分段。同時,它還在方便的位置發(fā)布經(jīng)過處理的數(shù)據(jù)以及訓(xùn)練和測試數(shù)據(jù)。
這個想法是為了讓研究團體更容易快速地重現(xiàn)結(jié)果。所有想要免費使用數(shù)據(jù)集的研究人員都可以獲得所有基準(zhǔn)腳本和數(shù)據(jù)。
新的更好的標(biāo)準(zhǔn)基準(zhǔn)谷歌希望為語言建模實驗創(chuàng)建一個新的更好的標(biāo)準(zhǔn)基準(zhǔn)。
隨著越來越多的研究人員使用新的基準(zhǔn),比較將更加容易和準(zhǔn)確,進展也將更快。
研究人員目前根據(jù)他們的選擇進行報告。這意味著由于缺乏處理標(biāo)準(zhǔn),結(jié)果難以重現(xiàn)。
谷歌研究的產(chǎn)品經(jīng)理戴夫·奧爾(Dave Orr)和谷歌研究科學(xué)家西普里安·切爾巴(Ciprian Chelba)鼓勵研究人員使用新的基準(zhǔn),因為他們找到了改進的方法來幫助機器找出搜索和查詢的背景。