最近,畢馬威會計事務所在一份報告中預測:到2030年,銀行的許多服務性工作崗位將消失,取而代之的是類似蘋果公司Siri的智能語音系統。不管這一預測是否準確,智能語音技術進入我們的生活,已是事實。它在哪些領域能夠取代人的工作?其應用前景如何?在發展過程中,還存在什么技術瓶頸?記者采訪了上海交通大學和科大訊飛的專家。
同聲傳譯將由機器來做
在近日舉行的錘子手機發布會上,訊飛輸入法有一段驚艷表現:在羅永浩講完一大段不太標準的普通話后,這款軟件幾乎一字不差地記錄下來,標點符號也基本正確。談及準確率高的原因,科大訊飛上海分公司總經理程蘇表示,訊飛輸入法具有語音識別和語義識別功能,不但能把普通話、方言、外語的語音準確記錄下來,還能通過語義識別技術進行“句讀”,較為準確地使用標點符號。
與手機語音輸入相比,會場語音記錄的難度更大。因為在會場上有許多噪音,需要通過加混響、去混響等技術降低噪音,辨識出演講者的語音,再把這些語音轉換成文字。目前,國內這種產品已經成熟,能取代速記員。“按照‘每個字記錄得是否準確’這個標準,速記員的準確率通常不超過80%,而訊飛的準確率達到95%。”程蘇說。
他還透露,今年底,訊飛將發布一款能替代同聲傳譯的產品。“屆時,會場上將有兩塊屏幕,一塊顯示中文,另一塊顯示英文,讓大家對機器同傳的準確率一目了然。”據介紹,要實現機器同傳,除了語音識別、語義識別技術外,還需機器翻譯、語音合成兩種技術。在專業性不強的會議上,機器同傳已能取代人工,節省許多會務費用。而在專業會議上,這種系統需要前期接受大數據訓練,標注出專業術語,這樣在現場就能應付自如了。
據介紹,語音識別結合機器翻譯的實用性很強。通過一些手機軟件,用戶能將多種外語以及我國少數民族語言的語音譯成漢語,在一些交流場合,不再需要翻譯人員的幫助。
科大訊飛工作人員在展示一款語音產品。來源:新華社
從“感知”向“認知”邁進
話務員、窗口服務員的工作也正在被智能語音系統取代。例如,撥打中國平安服務熱線“95511”后,用戶會聽到語音提示,讓他說出自己要辦理的業務,說出后直接跳轉到相應服務,不再需要按鍵。又如,中國移動的一些營業廳已引入語音交互機器人,讓它們為用戶辦理各種業務。
盡管如此,上海交通大學計算機系教授、思必馳聯合創始人俞凱表示,智能語音系統目前還只能取代部分語音交互服務崗位。其原因,是現實交流場景中,人們聽到的大多是“非配合式語音”——表達得并不清晰,講述的是復雜問題,常常需要多次交互,才能理解對方的意思。在這種場景下,目前的智能語音系統遠沒有達到應付自如的程度。為此,這一領域的科研人員正在從“感知”向“認知”階段邁進,即在基本解決了語音識別問題后,著力增強這種系統的智能,使它們能更好地理解人類的自然語言。
蘋果公司的作為,就反映了這一趨勢。去年,該公司收購了英國公司VocalIQ,希望提高語音助手Siri的智能水平。在劍橋大學做科研時,俞凱參與創辦了VocalIQ。這家公司開發的自然語言數據庫能存儲、學習用戶的語音信息,實現對用戶指令的準確識別,并給出相應的回復。“蘋果手機剛推出Siri那陣子,很多人喜歡和Siri開玩笑,因為它時常答非所問。”俞凱說,只有借助更先進的語言認知系統,Siri才會變得更有用。
蘋果手機Siri的智能有望升級。來源:環球網
物聯網時代,語音是剛需
隨著智能語音系統的認知能力越來越強,它的用途越來越廣。另一方面,隨著物聯網時代的到來,智能語音交互將逐步成為人們生活中的“剛需”。俞凱分析說,我們已經歷兩個互聯網時代——PC(個人電腦)互聯網、移動互聯網,在第一個時代,我們用鍵盤、鼠標輸入信息;在第二個時代,通過手指觸摸、虛擬鍵盤輸入信息。由此可見,語音輸入不是“剛需”,盡管一些智能語音軟件的準確率很高,但用戶比例還是比較低的。然而,人類即將迎來硬件物聯網時代。在這個時代,許多智能硬件沒有屏幕,即便有,在一些場景中也會離用戶比較遠,語音交互就會成為最便捷的操控方式。
為了滿足這一未來需求,國內外很多企業正在垂直領域發力,開發具有更多智能功能的語音產品。科大訊飛、思必馳開發的車載系統,就是一個典型的垂直領域。在汽車里,駕駛員無法用手操作設備,語音操控的需求很大。據介紹,思必馳去年推出了可糾正、可打斷的交互系統,用戶能隨時打斷語音助手、糾正自己的錯誤。如在車上撥打電話時,用戶說出號碼后,語音助手重復這個號碼時,用戶可以打斷它并進行修正(如說“不是135,是136”),而系統能理解這句話的意思。“我們希望在車載通話、聽音樂等垂直領域不斷取得突破,同時通過高校科研,提高系統在開放領域的語言認知水平,迎接物聯網時代的到來。”俞凱說。