如果在傳統(tǒng)處理器上進行智能應(yīng)用處理,一小時的語音數(shù)據(jù)需要一萬小時才能完成。人工智能的升級,依賴芯片技術(shù)。
[谷歌最新一代的TPU處理器的性能比去年發(fā)布的第二代版本要強8倍,可提供超過100萬億次浮點運算。而且谷歌第一次引入液體冷卻的方法來解決散熱問題。]
在上海工作的王勇(化名)近日接到一則推銷電話,“賣車險的”。他剛好不忙,于是很紳士地跟這位推銷員小姐聊了一會兒,解釋了一下自己的情況不需要車險了。末了還跟她說了聲“謝謝”。
但是這個看起來普通的電話很不尋常。
在掛掉電話后,王勇收到了一則短信,險些昏厥。短信內(nèi)容如下:“你好,我是剛才給你打電話的電銷機器人小三,我們公司的聯(lián)系電話是XXXXX,歡迎后期來電咨詢?!?/p>
時代不同了。你可能被人工智能(AI)騙過,未來你也許也可以用AI去迷惑別人了。有這樣一個機器人“小伙伴”,它可以代你向餐廳打電話預(yù)訂座位;還能冒充你跟熟人調(diào)侃、替你回郵件。
這一切正在發(fā)生。當(dāng)?shù)貢r間5月8日,谷歌I/O開發(fā)者大會在美國加利福尼亞州山景城召開。這家硅谷科技巨頭再次強調(diào)了AI先行的戰(zhàn)略。
在這次開發(fā)者大會上,谷歌不僅展示了功能更加強大的語音助手GoogleAssistant,還發(fā)布了第三代人工智能TPU(張量處理器)芯片,它的前輩就是“阿爾法狗”在圍棋界所向披靡的“秘密武器”。由此,谷歌一方面與人工智能芯片巨頭英偉達(dá)的GPU(圖形處理器)形成競爭,另一方面也意在挑戰(zhàn)微軟和亞馬遜云。
一句“嗯哼”脫口而出
谷歌CEO桑達(dá)爾·皮查伊在會上演示了事先錄好的兩段語音對話,分別是語音助手代替人類預(yù)約理發(fā)和預(yù)訂餐廳的。
比起傳統(tǒng)的對話語音機器人,使用谷歌DuplexAI語音系統(tǒng)的新助手要人性化得多,它不僅能夠和人類進行多回合的對話,而且還自帶語氣詞,聽起來相當(dāng)逼真。
在第一段女聲版機器人顧客和理發(fā)店店員的對話中,機器人顧客的一句“嗯哼”以假亂真,與人類使用英語對話的語氣十分相似,而且機器人也不再局限于僅僅以“是”或者“不是”簡單地回答提問,而是會與人類進行談判和商量,最終達(dá)成了一致,完成預(yù)約工作。
在另一段男生版的機器人顧客和中餐店服務(wù)員的對話中,機器人不僅能夠聽懂帶口音和不規(guī)范的英語,而且還會在對話中進行即興發(fā)揮,讓雙方的交互變得更加“優(yōu)雅”而自然。比如當(dāng)餐廳服務(wù)員告訴顧客當(dāng)時“不用等位”時,機器人顧客人性化地追問道:“那么一般情況下,等位需要多久?”
皮查伊沒有透露這項服務(wù)何時能夠讓用戶使用,不過表示從今年夏天起就將進行公測。
值得注意的是,在《愛樂之城》中客串樂手的美國著名歌手約翰·傳奇(JohnLegend)的聲音也將被谷歌助手采用。包括他在內(nèi),谷歌目前已經(jīng)擁有六種不同的人聲。
皮查伊在大會上表示:“谷歌的語音合成系統(tǒng)Wavenet模型是基于原始的音頻來創(chuàng)造出更加接近人類、更加自然的聲音,包括音高、語速以及停頓等?!?/p>
這項技術(shù)如果普及,或許意味著未來商家接起顧客的電話時,將很難分辨究竟是真人還是機器人在向自己咨詢提問。
中國的人工智能企業(yè)出門問問創(chuàng)始人兼CEO、谷歌前工程師李志飛對記者表示:“這種場景雖然有點聳人聽聞,但是與谷歌的競爭對手如以網(wǎng)絡(luò)書店起家的亞馬遜相比,谷歌在最底層的核心技術(shù)以及把技術(shù)打磨、做細(xì)做精方面絕對是‘一騎絕塵’的,這主要受到公司的工程師文化以及強大的研發(fā)隊伍的影響?!?/p>
芯片云端齊發(fā)力
谷歌的策略已經(jīng)從“人工智能優(yōu)先”(AIFirst)全面轉(zhuǎn)向“獨有人工智能”(AIOnly)。除了語音功能以外,谷歌郵箱Gmail也加入了智能化功能,運用機器學(xué)習(xí)可以在人們輸入時實時推薦可能會使用到的短語。該功能被稱作“智能創(chuàng)作”(SmartCompose),本月底將會正式上線。
而人工智能在谷歌地圖方面的應(yīng)用就更加強大了,利用全新的GoogleLens的應(yīng)用,地圖和相機直接實現(xiàn)打通,與谷歌街景結(jié)合,打通虛擬和現(xiàn)實世界,類似于增強現(xiàn)實(AR)的功能,由現(xiàn)實到虛擬,只要打開相機,就能給你指方向。此外,人工智能還能直接與衛(wèi)星圖像結(jié)合,把更多商戶和新地址添加到地圖中。
“這才是我們真正需要的人工智能?!迸d民智通(002355.SZ)首席運營官張人杰對記者表示,“一些國內(nèi)公司扎堆兒在做同質(zhì)化的東西。有時候,產(chǎn)品設(shè)計的初心在某種程度上決定了結(jié)果?!痹摴镜闹鳂I(yè)之一是智能網(wǎng)聯(lián)汽車數(shù)據(jù)的采集運營。
強大的人工智能背后是高性能芯片的支持。I/O大會上,谷歌還發(fā)布了最新一代的人工智能芯片TPU3.0版本。兩年前谷歌首次宣布推出通用的人工智能芯片時,就意在與英偉達(dá)的人工智能芯片GPU競爭。
據(jù)介紹,新一代TPU能夠幫助谷歌提升包括錄音音頻中的語言識別功能,還能在視頻和照片中辨別出物體,并從文字當(dāng)中提取隱藏的表情。
谷歌已發(fā)布兩個版本的TPU處理器,公司將允許使用谷歌公有云服務(wù)的第三方開發(fā)者在TPU上進行開發(fā),從而在云服務(wù)業(yè)務(wù)方面與微軟和亞馬遜競爭。本周稍早時,微軟也發(fā)布了基于微軟云Azure特殊芯片的早期應(yīng)用。
皮查伊表示,最新一代的TPU處理器的性能比去年發(fā)布的第二代版本要強8倍,可提供超過100萬億次浮點運算。而且谷歌第一次引入液體冷卻的方法來解決散熱問題。
“把自用的TPU開放出來做云服務(wù),顯示了谷歌在云業(yè)務(wù)方面加大投資布局。谷歌將與所有提供智能云服務(wù)的廠商競爭;而芯片方面則將和英偉達(dá)展開競爭?!毖芯繖C構(gòu)Gartner研究副總裁盛陵海對記者表示。
下一個風(fēng)口:醫(yī)療+AI
國內(nèi)的智能語音領(lǐng)軍企業(yè)科大訊飛(002230.SZ)也在密切關(guān)注谷歌I/O大會的新動向。
科大訊飛執(zhí)行總裁胡郁對記者感嘆道:“谷歌的語音技術(shù)一直挺牛的?!睋?jù)介紹,一小時的語音數(shù)據(jù)如果在傳統(tǒng)處理器上進行智能應(yīng)用處理,需要一萬小時才能完成,因此科大訊飛一直在跟蹤人工智能專用芯片的前沿進展。
胡郁向記者透露,科大訊飛看好智能語音在醫(yī)療方面的應(yīng)用?!拔覀冋诤蛧鴥?nèi)的幾個醫(yī)院談,用我們先進的智能語音技術(shù)幫助醫(yī)生記錄下手術(shù)的全過程。”通常醫(yī)生在做完手術(shù)之后,要通過回憶把手術(shù)過程記錄下來留存。胡郁說:“我們讓醫(yī)生在手術(shù)過程中戴上耳麥,能實時把他們的指令記錄下來,手術(shù)完畢后直接匯總成文,為醫(yī)生減輕了大量整理工作?!?/p>
人工智能和醫(yī)療的結(jié)合將是科技公司下一個爭奪的主戰(zhàn)場。在印度,谷歌的醫(yī)療AI已經(jīng)在幫助醫(yī)生進行視網(wǎng)膜篩查糖尿病和心臟病的工作,以解決醫(yī)療資源分配不公的問題。
“兩年前,谷歌開發(fā)了一套神經(jīng)網(wǎng)絡(luò),它能通過眼部醫(yī)學(xué)造影來探測糖尿病視網(wǎng)膜病變。今年,人工智能團隊利用深度學(xué)習(xí)模型,已經(jīng)能夠高度精確地預(yù)測一位病人未來心臟病和腦溢血的發(fā)病風(fēng)險?!惫雀?月9日在發(fā)給第一財經(jīng)記者的聲明中表示。