TS是Text To Speech的縮寫,即從文本到語音,是人機對話的一部分,讓機器能夠說話。是一種將輸入的文本轉換成語音的技術。
TTS輸入的文本包括兩部分:純文本和標記。純文本指的是語音的內容,而標記可以用來改變語音的聲調、速度、重讀等。TTS引擎的處理過程如圖:
其中,文本處理是通過語音模型進行分詞,消除單詞的多義(如確定多音字的發音),并處理標記。而合成是把單詞轉換成語音。合成主要有兩種,一種是基于規則的合成,主要是計算參數的軌跡,形成規則,完成語音的合成,采用的參數包括發音器官參數和聲道模型參數;另一種是基于拼接的合成,合成器按照語音規則把預先錄制的語音單元進行拼接,預先錄制的語音單元的集合叫作音庫,合成語音的音質與錄音員的音質是一樣的。語音合成技術主要有以下發展方向。
(1)提高合成語音的自然度
提高合成語音的自然度仍然是高性能文語轉換的當務之急。就漢語語音合成來說,目前在單字和詞組一級上,合成語音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時其自然度問題就比較大。
(2)豐富合成語音的表現力
目前國內外大多數語音合成研究是針對文語轉換系統,且只能解決以某種朗讀風格將書面語言轉換成口語輸出,缺乏不同年齡、性別特征及語氣、語速的表現,更不用說賦予個人的感情色彩。
(3)多語種文語合成
語言是人們交流的工具,不同民族有自己不同的語言,不同語言之間的交流在今天開放的信息社會和網絡時代顯得十分重要,多語種的文語合成有著獨特的應用價值。
TTS是語音合成應用的一種,它將儲存于電腦中的文件,如幫助文件或者網頁,轉換成自然語音輸出。TTS不僅能幫助有視覺障礙的人閱讀計算機上的信息,更能增加文本文檔的可讀性。現在的TTS應用包括語音驅動的郵件以及聲音敏感系統,并常與聲音識別程序一起使用。
現在有很多TTS的產品,包括語音合成助手,PDF Markup Cloud,PDF 大師 ,Read Please 2000, Proverbe Speech Unit,以及Next Up Technology的TextAloud。朗訊、 Elan、以及 ATT都有自己的語音合成產品。 特別是在智能
呼叫中心IVR導航起作重要的作用!