最近,我們報(bào)道了一個(gè)相當(dāng)令人震驚的消息,谷歌的翻譯設(shè)備在人工智能術(shù)語方面有了重大飛躍——似乎一直都是這樣。使用機(jī)器學(xué)習(xí),谷歌翻譯“教授”本身就是一種更好的方法,通過發(fā)明自己的語言來翻譯不熟悉的語言,并有效地充當(dāng)中間人。
看過《終結(jié)者》電影的人都知道,一旦天網(wǎng)的人工智能系統(tǒng)有了自我意識(shí),事情就會(huì)迅速變得梨形。
所以你可能會(huì)有點(diǎn)驚慌地發(fā)現(xiàn),機(jī)器正在悄悄地開始做出自己的創(chuàng)造性決定?!督K結(jié)者》中,天網(wǎng)迅速從自我意識(shí)走向核災(zāi)難。
機(jī)器思考和學(xué)習(xí)的時(shí)代即將到來。在硅谷,互聯(lián)網(wǎng)巨頭百度在語音合成方面取得了突破,使人工智能能夠快速學(xué)習(xí)表達(dá)口語。事實(shí)上,這些機(jī)器現(xiàn)在可以在幾個(gè)小時(shí)內(nèi)自學(xué)。
文本到語音系統(tǒng)以前是通過記錄個(gè)人(通常是演員)大聲朗讀的大量口語單詞和常用短語來創(chuàng)建的。
然后,它們以各種組合的形式提供,以適合作為語音時(shí)鐘、衛(wèi)星導(dǎo)航系統(tǒng)或自動(dòng)呼叫系統(tǒng)來接聽電話。
這種方法帶來了一些挑戰(zhàn),例如,如果系統(tǒng)需要擴(kuò)展,而原來的參與者不再可用,會(huì)發(fā)生什么情況。導(dǎo)航系統(tǒng)通常會(huì)圍繞這個(gè)問題,要求原演員記錄一些常見的單詞部分,然后拼湊成不常見的街道名稱。
演員會(huì)記錄常見的地名,如“高街”,但對(duì)于非常不常見的地名,如托基的Helevoetssluisway(以荷蘭小鎮(zhèn)的雙子城命名),系統(tǒng)會(huì)粉碎演員的音節(jié)記錄,以獲得宣布單詞時(shí)可以做出的努力。
谷歌最近的研究提出用一個(gè)系統(tǒng)來克服這個(gè)問題。相反,該系統(tǒng)從觀察到的語音中觀察聲波,并用它來發(fā)送任何文本的抄本。
神經(jīng)網(wǎng)絡(luò)使用深度學(xué)習(xí)但仍需要人類訓(xùn)練,它仍需要克服一些計(jì)算挑戰(zhàn)才能用于現(xiàn)實(shí)世界。
部分問題在于現(xiàn)實(shí)生活中語音太快,計(jì)算跟不上新的發(fā)展。谷歌的解決方案速度不夠快,無法與人對(duì)話。
最新發(fā)展
這就是百度剛剛介入的地方,在硅谷開發(fā)了自己的基于自訓(xùn)練深度學(xué)習(xí)算法的語音合成項(xiàng)目。
這一新的發(fā)展將一場演講分解為最小的可能組成部分——現(xiàn)象——百度的人工智能可以調(diào)整這些音調(diào),從而為其產(chǎn)生的演講添加情感。
百度的系統(tǒng)不需要人工訓(xùn)練,可以快速獲取新數(shù)據(jù)。這說明它也許能適應(yīng)新的語言。它還可以學(xué)習(xí)一種語言中不同的語音類型:例如,AI可以閱讀有聲書,并以不同的方式完成每個(gè)角色的語音。這為人機(jī)之間更真實(shí)、更有情感技巧的對(duì)話提供了新的可能性。
這在衛(wèi)生保健等敏感領(lǐng)域具有明顯的意義。如果互動(dòng)在情感上更加微妙,患者可能更容易接受AI。
最重要的是,百度的團(tuán)隊(duì)聲稱已經(jīng)克服了谷歌遇到的計(jì)算問題。據(jù)估計(jì),新系統(tǒng)的速度比谷歌上一次迭代快400倍左右。這意味著系統(tǒng)可以足夠快地工作,在現(xiàn)實(shí)生活中發(fā)揮作用,例如通過不可預(yù)測(cè)的交易與人互動(dòng)。
談?wù)摍C(jī)器人的未來
隨著兩大互聯(lián)網(wǎng)巨頭將目光轉(zhuǎn)向語音合成,這一研究領(lǐng)域幾乎必然會(huì)快速推進(jìn)。人類一旦解決了人工對(duì)話的問題,就會(huì)對(duì)商業(yè)、技術(shù)、社會(huì)產(chǎn)生很多影響。
通過自動(dòng)駕駛汽車和自動(dòng)檢測(cè)等技術(shù),可以更容易地向前推進(jìn),從而減少煩惱和重復(fù)。
自學(xué)系統(tǒng)的確是解決不可預(yù)測(cè)的談話情況的關(guān)鍵。目前人工智能的交互局限在相當(dāng)狹窄的范圍內(nèi);例如,自動(dòng)語音郵件可以從你那里得到一個(gè)電話號(hào)碼,或者用一個(gè)簡單的是/否回答來回復(fù)。
能夠適應(yīng)新情況的語音合成系統(tǒng)開辟了新的可能性,例如與自動(dòng)駕駛汽車談判路線,或者向AI醫(yī)生描述你的癥狀。
改進(jìn)的語音合成也能更好地代表我們。因運(yùn)動(dòng)神經(jīng)元疾病等疾病而失去聲音的人,如果在失去說話能力之前記錄下他們的聲音樣本,就可以通過計(jì)算機(jī)通信更好地反映他們的身份。
或者,計(jì)算機(jī)可以結(jié)合來自其年齡、性別和地區(qū)的多種聲音來創(chuàng)建一個(gè)公平的表示。
當(dāng)然,像這樣的新技術(shù)的出現(xiàn)也有負(fù)面影響。如果AI交互可以代替人類,可能會(huì)造成大量失業(yè)。

對(duì)于昂貴且容易出錯(cuò)的人類工作者來說,執(zhí)行服務(wù)行業(yè)等交易的需求要少得多。
我們認(rèn)為理所當(dāng)然的事情,比如人們?cè)诓蛷d等待,可能會(huì)變得更加罕見。社會(huì)變革,經(jīng)濟(jì)中斷,必然伴隨著可以和我們自由對(duì)話的機(jī)器的到來。