流行的觀點(diǎn)表明,70-80%的在線內(nèi)容是英語,但互聯(lián)網(wǎng)的語言崩潰令人驚訝地難以驗(yàn)證。許多早期的研究是基于隨機(jī)的頁面抽樣,當(dāng)大型社交媒體網(wǎng)站如臉書可以跨越多種語言時(shí),這是無效的。
對(duì)網(wǎng)絡(luò)語言分段進(jìn)行分類的其他努力集中在計(jì)算網(wǎng)絡(luò)內(nèi)容中使用的不同語言中的獨(dú)特單詞的例子。這個(gè)方法查看一個(gè)單詞在英語、法語和漢語中的使用次數(shù)。當(dāng)這種方法在上世紀(jì)90年代首次使用時(shí),似乎80%的在線內(nèi)容都是英文的。使用相同方法的研究表明,英語在線內(nèi)容的比例繼續(xù)下降。到2005年,只有45%的內(nèi)容被認(rèn)為是英文的,目前估計(jì)不到40%??紤]到全球只有約5%的人口以英語為母語,約20%的人認(rèn)為自己具有一定的語言能力,或許有一些方法可以讓互聯(lián)網(wǎng)更準(zhǔn)確地反映世界的語言變異。
人們發(fā)現(xiàn),有一種趨勢(shì)表明,在英語不是主要語言的國家,互聯(lián)網(wǎng)的使用增長(zhǎng)最快。到2010年,只有超過四分之一的互聯(lián)網(wǎng)用戶以英語為母語,而1996年這一比例超過80%。網(wǎng)絡(luò)內(nèi)容的語言特征背后有幾個(gè)因素。用戶生成內(nèi)容的增加可能在擴(kuò)大語言多樣性方面發(fā)揮了作用。雖然用戶可能準(zhǔn)備與用其他語言編寫的網(wǎng)站進(jìn)行交互,但在生成內(nèi)容時(shí),他們通常希望用自己的母語進(jìn)行交互。

阿拉伯語和漢語用戶的互聯(lián)網(wǎng)接入顯著增長(zhǎng)也意味著英語不再是過去在線的主流語言。讓新興市場(chǎng)上網(wǎng)仍有很大進(jìn)展,許多公民會(huì)說英語以外的語言。這代表了一個(gè)龐大的語言群體仍然選擇加入萬維網(wǎng),并帶來自己的語言需求。
顯然,世界上的語言多樣性在互聯(lián)網(wǎng)上得到適當(dāng)反映還有很長(zhǎng)的路要走,甚至一些世界上最常用的語言仍然不能滿足在線需求。阿拉伯語和印地語等廣泛使用的語言仍然只占在線內(nèi)容的一小部分。雖然馬來語是世界上使用最廣泛的語言之一,但只有大約四分之一的馬來語使用者可以上網(wǎng)。
我們?nèi)绾卧诰W(wǎng)上提供更多的語言?那么,需要做些什么來影響變化呢?實(shí)現(xiàn)更大的在線語言多樣性可能不僅需要為馬來語等語言的用戶提供訪問權(quán)限。還需要擺脫現(xiàn)在的情況,即內(nèi)容創(chuàng)作在地理上和語言上都是集中的。
因?yàn)楸镜鼗瘍?nèi)容的開發(fā)既昂貴又有風(fēng)險(xiǎn),所以可能需要開發(fā)新的模型來找到分發(fā)和利用這種新的內(nèi)容多樣性的方法。
搜索技術(shù)也需要適應(yīng)互聯(lián)網(wǎng)新的語言特征。搜索引擎很難完全索引社交媒體網(wǎng)絡(luò),這意味著一些網(wǎng)絡(luò)內(nèi)容仍然不可見。他們?cè)噲D引導(dǎo)哪些內(nèi)容傾向于支持英文內(nèi)容,部分原因是從廣告的角度來看這更有利可圖。當(dāng)需要為新的語言群體提供他們自己的內(nèi)容時(shí),這可能是另一個(gè)需要克服的挑戰(zhàn)。
一些大型跨國平臺(tái)正試圖將其產(chǎn)品擴(kuò)展到更大的語言。谷歌正在積極瞄準(zhǔn)講印度語的人,尤其是印地語,以便在早期抓住這個(gè)新興市場(chǎng)。為了更大的語言市場(chǎng),這種融入新語言群體的動(dòng)機(jī)顯然是值得的。谷歌認(rèn)為其在印度的活動(dòng)可以接觸到5億互聯(lián)網(wǎng)用戶,這些用戶來自具有潛在消費(fèi)能力的新興中產(chǎn)階級(jí),因此投資使用最廣泛的印度語言顯然是值得的。
臉書還擴(kuò)大了它支持的語言數(shù)量——它現(xiàn)在可以處理世界上7000種語言中的70種。為了擴(kuò)大語言選擇,社交媒體巨頭已經(jīng)將翻譯應(yīng)用開放給自愿翻譯。理論上,這種翻譯模式允許它快速增加它提供的語言數(shù)量,但在實(shí)踐中,提供的新語言選項(xiàng)的數(shù)量是有限的。尚不清楚臉書的計(jì)劃是進(jìn)一步擴(kuò)大其語言產(chǎn)品。
無論如何,對(duì)于現(xiàn)有的參與者來說,擴(kuò)展他們的服務(wù)以包括其他語言可能不是最好的。捷克本土搜索平臺(tái)Seznam聲稱,其本地知識(shí)可以成功地與全球巨頭競(jìng)爭(zhēng)。Seznam提供了對(duì)本地用戶很重要的功能,比如每日更新的本地地圖,這是巨型競(jìng)爭(zhēng)對(duì)手無法提供給市場(chǎng)規(guī)模的。Seznam有1000名員工。Seznam可能在一個(gè)足夠大的市場(chǎng)中運(yùn)營,足以讓當(dāng)?shù)剡\(yùn)營商蓬勃發(fā)展,但對(duì)于一家大型跨國公司來說。公司太年輕了,不能投入太多精力去迎接挑戰(zhàn)。
這就引出了一個(gè)很難看的問題,是否只有盈利的語言群體才會(huì)在網(wǎng)上提供自己的語言內(nèi)容。這可能是一個(gè)風(fēng)險(xiǎn),除非我們找到新的方法來為較小的語言群體創(chuàng)建、分發(fā)和貨幣化內(nèi)容。