婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 識別語音的幾種依據

識別語音的幾種依據

熱門標簽:地圖標注的表述 如何撤銷百度地圖標注 電話機器人ai在中國 抖音地圖標注平臺 百度地圖標注位置沒有電話 凱立德汽車檢測場地圖標注 墻上地圖標注店標 濟南高頻外呼系統違法嗎 金昌電話機器人哪家好
  語音識別技術就是通過機器識別和理解過程把語音信號轉變為相應的文本或命令; 說話人識別技術就是讓機器通過你的聲音紋路確定你的身份; 語種識別技術就是讓機器識別你所說的語言的種類,如是英語還是漢語等。

  近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。專家預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。

  由于朗讀方式的連續語音和通常自然口語化語音(Spontaneous)發音方式有很大的不同,電話語音通常包含更多的環境噪聲、信道噪聲和語音失真,因此如何有效提高自然口語化語音電話語音和廣播語音識別性能是目前重要挑戰。目前語音識別技術研究開始重點向電話語音和廣播語音識別研究方向發展。利用目前已經比較成熟的技術,開發針對各種應用的語音識別產品,包括語音專用芯片、嵌入式語音識別系統、口語對話系統、聲紋識別系統等,也是目前語音技術領域的熱點之一。

  語音識別整體模型

  大詞匯量連續語音識別系統的研究主要集中在聲學模型和語言模型兩個方面。語音信號本身的特點造成了語音識別的困難。這些特點包括多變性、動態性、瞬時性和連續性等。語音識別和理解是一項非常困難的任務,必須建立在從聲學、語音學到語言學的知識為基礎的語音處理機制上,才有可能獲得高性能的自動語音識別系統。目前主流的語音識別的理論是基于統計模式識別原理。語音識別系統通常假設語音信號是由一系列編碼組成。輸入的語音波形首先被轉換為一組離散的參數矢量。通常用O=o1,o2,∧,or表示語音發聲一組待識別的特征參數矢量(觀察矢量),其中每個矢量時間間隔典型取值為10ms~20ms。識別器的作用是把輸入的語音特征矢量映射為潛在的文字序列。

  語音識別的整體模型就是要把可利用的語音學和語言學信息用一個統一的模型來進行描述,以得到盡可能正確的句子識別。假設一句語音可以由字串W=w1,w2,∧,wr組成,識別系統要完成的任務是在給定觀察矢量情況下,尋找最大可能(概率最大)的字串W。漢語和西方語言識別系統不同的地方在于漢語中的同音字和同音詞比較多,漢語語音識別系統必須包含音字轉換的過程。

  建立語音識別模型的任務就是要把檢測到的聲學層語音信息通過適當的數學公式將識別結果W與O的關系表示出來。目前被認為最有效的語音識別模型就是基于統計的隱含馬爾可夫模型。根據統計模式識別理論,在已知特征O的條件下,選擇可以利用各種信息使后驗概率最大。具有最大后驗概率的結果為系統最可能的識別結果。

  語音識別整體模型反映了實際中語音識別系統要解決的四個具有挑戰的問題。首先,一個穩健的特征參數提取算法是必須的,并且該參數能很好地適用于語音的聲學層模型。第二,必須根據不同語言的發音特點,建立具有很好鑒別力的聲學層模型。模型參數必須能夠從并不充分的語音數據中訓練出來,并表現出穩健性。第三,必須建立一個語言模型,根據前面的歷史語言模型能夠指導向前搜索的過程。完善的語言模型還必須包含處理新詞的能力,并且盡可能做到和文本的內容無關。第四,由于詞匯數量是巨大的,一個實用系統必須有適合聲學模型和語言模型的剪枝算法。

  語音識別特征

  選取語音的識別特征參數是語音識別系統中非常重要的一個方面。選取的特征應該對發音模板有較大的區分度和抗噪聲性能。語音信號可以看成是準平穩的隨機過程。在10~25ms的時間范圍內語音信號可以被認為是平穩的,因此可以分幀對語音信號進行分析。對語音識別系統,典型幀長取值為25ms,幀移為10ms。漢明窗(Hamming)通常在分析中使用以提高分析準確性。預加重濾波器通常被用于補償由于嘴唇輻射引起的高頻頻譜的衰減。

  目前比較有效識別參數為Mel頻率倒譜系數(Mel-Frequency Cepstral Coefficients MFCC)。MFCC參數都符合人耳的聽覺特性,在有信道噪聲和頻譜失真情況下,該參數表現的比較穩健。由線性預測系數(Linear Prediction LP)導出倒譜系數也是一種常用的語音識別參數,在安靜的環境下,線性預測倒譜系數和MFCC系數的性能相差不多。近來研究表明用感覺加權的線性預測(Perceptually Weighted Linear Prediction Cepstral Coefficients PLPCC)倒譜系數能有更好的識別穩健性。

  在語音信號特征提取過程中,通常做一個不精確的假設,即不同幀間的語音是不相關的,由于人發音的物理條件限制,不同幀間語音必須是相關的,變化是連續的。可以用一階差分系數和二階差分系數來近似描述語音幀間的相關性。通常把分析得出的語音信號的倒譜特征稱為語音的靜態特征,而把這些靜態特征的差分譜稱為語音信號的動態特征。這些動態信息和靜態信息成互補,能很大程度提高系統的識別性能。更好的語音動態特征可以用語音的幀間相關模型來描述,但是,其運算量較大。

  簡單增加語音特征參數的數量并不一定能夠提高系統的識別率。增加模型參數的雖然能提高系統的鑒別能力,但同時也增加了系統的混淆性。因此如何有效的選取特征參數是一個重要問題。目前一種從多種參數中選取重要特征的方法是使用線性鑒別分析(Linear Discriminant Analysis LDA),通過LDA可以把原始的特征參數變換到一個維數更低的矢量空間,其改進方法包括異方差區分分析(Heteroscedastic Discriminant Analysis HAD)和混淆數據分析(Confusion Data Analysis CDA)。

  聲學模型

  識別系統的聲學模型是識別系統的底層模型。聲學模型是語音識別系統中最為關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發音模板之間的距離。人的發音在每一時刻都受到其前后發音的影響,為了模仿自然連續語音中協同發音作用和鑒別這些不同發音,通常要求使用復雜的聲學模型。聲學模型的設計和語言發音特點密切相關。

  漢語的發音特點和西方語言有很大的不同。漢語的每個字發音較短,為帶調單音節。它屬于有調語言,調對區分漢字的意思起了很大的作用。漢語的每個發音中的輔音部分發音相對較短且詞間的連音程度不如英語那么強。針對漢語的這些發音特點,目前的研究表明取半音節作為識別系統的識別單元就能夠很好的描述漢語語音的細節。這些半音節通常稱為聲母和韻母,當然如果詳細考慮到聲母的左半連接關系和韻母的左半和右半連接關系,還可以細化為聲韻母的三音子(Triphone)模型。進一步考慮前面兩個和后面兩個發音關系,還可以細化為五音子。三音子通常比二音子的數目大很多,可多達上萬個。太多的模板,則要求非常大量的訓練數據,才能達到穩健的參數估值。

  基于一種語言學知識構成的判決樹(Phonetic Decision Trees)方法可以結合語言學知識,由數據驅動方法根據語音數據多少,針對由語言學總結出來的發音特點對不同三音子構成在最大似然準則下進行聚類。保證生成模型在給定的數據下,模型參數能夠穩健的估值。該方法收到良好的效果,有效地提高了系統的識別率。對統計模型語音識別系統來說,語音訓練的數據相對來說總是不夠的。提高模型參數估值穩健性的另一種辦法是使用捆綁技術,捆綁技術使一些不同的發音模型在某些狀態上共享模型參數,這可以很大程度上減少對訓練數據的要求。

  目前隱含馬爾可夫模型HMM仍然是大詞匯量語音識別算法的主流,它能對語音的時變性和動態性有很強的模型能力。HMM的從左到右狀態轉移模型,很好地描敘了語音發音特點。HMM可以分為連續密度隱含馬爾柯夫模型、半連續隱含馬爾柯夫模型和離散隱含馬爾柯夫模型。通常連續密度隱含馬爾柯夫模型精度最高,但計算量較大。每個發音音素通常采用3個狀態隱含馬爾柯夫模型。其結構如附圖所示。考慮到在不同的幀上噪聲、清音、濁音的短時能量和過零率有重疊的部分,語音信號的端點檢測準確率不可能很高,尤其是在噪聲較大的環境下。為解決這個問題,還必須設計能夠模擬語句開頭、結尾靜音模型,以及句子中詞間短暫停頓靜音模型,要注意的是這兩種靜音模型有不同的統計特性和模型結構,必須分別加以考慮。


  語音識別系統這一層模型通常稱為聲學模型,它是識別系統的最基礎部分,對系統性能起到最關鍵的作用。近年來基于概率圖模型和基于隨機段模型的識別算法研究也取得顯著進展,其識別率在一定程度上好于隱含馬爾可夫模型的識別系統,并開始受到重視。

  語言模型

  一個識別系統必須在每一時刻檢測是否遇到語音的發音邊界,這樣許多不正確字或詞的猜測將會從不正確段的語音中識別出來。為了消除這些猜測字詞之間的模糊性,語言模型是必須的。語言模型可以提供字或詞之間的上下文信息和語義信息。由于語音信號的復雜性,不同音的發聲類之間存在著疊接現象,有些單音如果沒有前后聯想即使人來分辨也是很困難的。通過語言模型可以提高聲學模型的區分度,語言模型可以是語言中一些規則或語法結構,也可以是表現字或詞的上下文之間的統計模型。目前比較成熟的方法是統計語言模型,它通過對大量文本文件的統計,得出了不同字詞之間先后發生的統計關系。

  語言模型是近年來自然語言處理領域研究的熱點之一。雖然語音識別的聲學模型可以做到于任務無關,但常規的語言模型目前還做不到這點。由于語言模型都是通過特定方面內容文本訓練而成的,因此從新聞語料訓練出來的語言模型,不能夠用于識別文學方面的有關內容,這是常規語言模型的主要缺點之一。

  語言模型不僅能用于語音識別,而且在音字轉換、漢語分詞、詞性標注中也有應用。漢語的同音字現象很嚴重,雖然漢語只有無調拼音408個,有調拼音1254個,但平均一個有調拼音要對應5、6個漢字,有的高達十幾個。漢語可讀的文本是漢字形式,所以音字轉換是語音識別的重要步驟。

  語言模型不僅可以用于語音識別系統中,還可以用于一般的音字轉換系統中。

  在轉換中可以用基于詞的語言模型或基于字的語言模型。實驗表明,基于詞的語言模型要比基于字的語言模型更精確。表中對應音字轉換的數據是在三元文法語言模型下轉換字正確率的百分比。

  表中的Perplexity通常稱為語言模型困惑度或分支度,它可以用于度量語言模型的性能,表明在語言模型的限制下,每個詞后面平均能夠連接詞的個數,其值越小說明語言模型越有效。反過來,如果保持系統識別率不變,則Perplexity越大,系統對語言文法的限制也越寬松。從表中可以看出,基于詞的語言模型確實比基于字的語言模型效果好。基于詞的模型Perplexity低,而且音字轉換準確率高,但是構造基于詞的語言模型比較復雜,構造起來也比較麻煩。

  鏈接:說話人自適應

  說話人之間的差異對非特定人語音識別系統造成的影響主要有兩方面原因: 1.當某一使用該系統的說話人語音與訓練語音庫中的所有說話人的語音都有較大的差別時,對該使用者的語音識別將很難進行; 2. 訓練一個較好的識別系統需要采集數量很大的說話人的語音用于訓練,讓訓練語音庫覆蓋更為廣泛的語音空間,這樣雖然可以減低原因1中的影響,但同時會造成識別系統參數分布較廣,而不是較為尖銳的分布,造成識別性能的普遍下降。

  特定人識別系統雖然可以克服非特定人系統的以上缺點,但該系統需要使用者錄入大量的語音用于訓練,給使用者帶來很大的不便,對于大詞匯量的識別系統,所需的語音訓練的數量是令人無法忍受的。

  近年來,人們采用說話人自適應(Speaker Adaptation, SA)算法有效地解決了特定人和非特定人系統各自的缺點。該方案利用系統使用者的少量訓練語音,調整系統的參數,使得系統對于該使用者的性能有明顯的提高。與非特定人識別系統相比, 說話人自適應系統由于考慮了用戶的特殊信息,因此識別性能優于非特定人語音識別系統; 而與特定人語音識別系統相比,說話人自適應系統納入了非特定人識別系統的先驗信息,需要用戶提供的訓練音數量遠低于特定人語音識別系統,有更好的實用性。因此非特定人+自適應成為當前各語音識別系統采用的實用框架。

  按照訓練語音獲取的不同形式,自適應方式可以分為: 批處理式: 訓練語音是由用戶一次性錄入,然后進行統一的自適應訓練,更新系統參數; 在線式: 訓練語音是用戶使用識別系統時所識別的語音,系統根據累積的統計量,按照一定時間間隔更新系統參數; 立即式: 訓練語音是當前正在識別的語音,該模式與在線式模式間的差別在于立即式自適應只利用當前的語音作自適應,沒有在線式自適應的累積過程。

  從實用角度看,在線式和立即式自適應模型由于不需要用戶一次性輸入一批訓練語音,所以對用戶的界面更具友好性。從實現的角度看,批處理式自適應的實現難度低于在線式和立即式。而從自適應的性能看,批處理與在線式的算法本質是一致的,因此性能也基本一致,立即式自適應由于沒有累積的過程,利用語音的信息少,所以性能劣于前兩者。

計算機世界網

標簽:河源 克拉瑪依 烏海 平涼 臺灣 天門 南昌 青海

巨人網絡通訊聲明:本文標題《識別語音的幾種依據》,本文關鍵詞  識別,語音,的,幾種,依據,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《識別語音的幾種依據》相關的同類信息!
  • 本頁收集關于識別語音的幾種依據的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 抚州市| 水富县| 类乌齐县| 左贡县| 保康县| 子洲县| 靖远县| 虹口区| 呼图壁县| 梧州市| 偏关县| 稷山县| 三门峡市| 邹平县| 梓潼县| 同仁县| 手游| 平乡县| 宿州市| 江西省| 易门县| 石林| 噶尔县| 通道| 胶南市| 海门市| 宁强县| 徐汇区| 阿拉尔市| 澄城县| 呼图壁县| 清远市| 厦门市| 延津县| 黄陵县| 策勒县| 安图县| 崇明县| 山阴县| 化隆| 英吉沙县|