隨著亞馬遜、京東、阿里先后發布智能音箱,10月份蘋果收購VocalIQ和谷歌戰略入股出門問問,盤點一下今年的語音交互市場,真是異常的熱鬧。那么,語音交互技術真的就像市場上熱捧的那樣走入了智能時代嗎?
實際上我想這個問題大家都心知肚明,資本市場的熱鬧也不過是各個巨頭的布局,甚至是其他用意而已。不管是微軟的小冰、百度的小度,還是科大訊飛的語音識別、出門問問的語音助手,僅僅還都是停留在對簡單問題的理解和回答,而即便這些也是依靠大量數據訓練而成的,這種訓練有時候甚至是開了玩笑,比如我們真的需要大量的“調戲”語言訓練出來的結果嗎?深度神經網絡曾經極大促進了語音識別的發展,但是目前來看,要想解決復雜問題和邏輯推理還是存在極大的難度。
另外還有重要的一點,語音交互方面的用戶黏性還是非常差的,比如我們一天會用幾次Siri(蘋果手機語音控制軟件)或者出門問問呢?而提高用戶黏性的最大挑戰就是要找到一種既能滿足用戶需求又能保證技術實現的產品形態。用戶需求自然是很明顯的,我們希望的是讓我們能夠自然聊天的產品,但是現在技術上實現真是太難了,不僅是語音識別和情感合成的本身難度,而且還包括了噪聲干擾、方言混合以及遠程拾音等等問題。
上面這些挑戰,嚴重制約了語音交互在通用市場領域的應用,而我們傳統思維上卻總想用戶都像技術人員那樣能夠理解這些技術并恰當應用,這反而才是制約技術發展最大的障礙。但是隨著巨頭的進入和語音交互市場的繁榮,國內的科大訊飛、百度、盛大、出門問問正在轉變思路,他們逐漸摒棄了盲目擴張和宣傳,從通用市場領域逐步擴展到垂直市場領域,扎扎實實根據用戶需求做好垂直細分的市場領域。科大訊飛重點打造教育和車載市場,出門問問重點在可穿戴市場,而客服市場現在也是各個巨頭極為看重的潛在市場。一想到語音交互機器人可能取代大量客服妹妹,這可能讓很多人覺得商機無限,其實完全取代人工現在看來還為時過早,但是篩選前端無效咨詢幫助減輕客服工作量,這才是目前語音交互最為重要的應用領域。當然,除了教育、導航、客服市場,還有金融、醫療等垂直市場具有較好的應用前景。
談了這么多挑戰,也展望了未來市場應用,我們還是再看看技術發展。語音交互技術包括了語音識別、語音合成以及情感識別與合成等技術。從50年代美國貝爾實驗室和國內的中科院聲學所開始研究語音技術,到70年代小詞匯量的語音識別取得較大進展,80年代非特定人連續語音識別技術快速發展,90年代大量聲學識別模型的出現,直到21世紀語音識別才走進我們的生活世界。其間語音交互的前端處理技術、聲學特征提取、聲學模型重構等都取得了重大進展,特別是機器深度學習技術的引入,極大提高了利用傳統聲學建模進行語音識別的準確率,微軟曾經宣稱利用DNN(深度神經網絡)算法可以降低語音識別錯誤率30%。但是這還是不夠的,若能引入更多計算機技術,例如有限狀態機等,將語音模型、聲學特征、語料音庫和情感預測等統一為整體的識別網絡,相信我們距離電影《鋼鐵俠》中的自然語音交互應用不是太過遙遠。