A. 語音識別的前端處理
前端處理是指在特徵提取之前,先對原始語音進行處理,部分消除雜訊和不同說話人帶來的影響,使處理後的信號更能反映語音的本質特徵。最常用的前端處理有端點檢測和語音增強。端點檢測是指在語音信號中將語音和非語音信號時段區分開來,准確地確定出語音信號的起始點。經過端點檢測後,後續處理就可以只對語音信號進行,這對提高模型的精確度和識別正確率有重要作用。語音增強的主要任務就是消除環境雜訊對語音的影響。目前通用的方法是採用維納濾波,該方法在雜訊較大的情況下效果好於其它濾波器。
B. 求端點檢測方法研究的論文
具體格
式啊,具體格
式啊,
C. matlab語音處理時進行分幀,怎麼確定給出幀長和幀移的量,wlen=, inc=
一般時域分幀10-30ms(這是我在中科院一本《說話人識別的書》上看到的數據),根據你的采樣率就可以確定wlen的長度,inc一般取wlen的20%-30%左右,基於短時平穩特性具體我沒有查到量化資料,看別人工程猜測的。
端點檢測的方法很多,一般常用短時能量和短時過零率檢測, 確定漢語音節,都是以幀為單位,具體是設定閾值,查找起止,不過這種方法對信噪比要求稍高,我最近正在做,感覺效果不是很好,具體的方法你可以查宋知用老師的一本書,《matlab在語音信號分析與合成中的應用》,寫得非常,非常,非常,非常好!!!!!!!!!!!!!!!!
宋老師是國內語音分析最早的研究人員,從事40餘年,致敬!
他在matlab論壇的回復:(原話復制,就忽略我說的。。。。)
」請LZ細看一下該書的第二章。不論用哪一種方法都要對幀長wlen和幀移inc進行賦值。書中處理語音信號,語音信號是一種准周期性的信號,一般認為語音在10-30ms之內是穩態的,所以取幀長也在10-30ms之內,有取20ms,也有取30或40ms。而幀移常取5-15ms之間。「
D. 語音端點檢測的方法有頻帶方程法嗎
背景技術:
有效語音的起止端點檢測是語音處理中重要的一環。在實際運用中,特別是在語音識別中,系統的使用效果不僅僅限於識別演算法,能否既快又准確的檢測到語音端點,很大程度上影響著語音系統實際應用的成功與否。在實際運用中,運用最多的斷點檢測方法是基於能量和短時過零率雙門限的檢測方法。該方法實現簡單,計算復雜度小,實時性好,在背景干凈的環境下性能良好。但在信噪比較低的環境中該方法的性能已無法達到實用要求。
發明內容
本發明涉及一種頻帶方差端點檢測方法,可以在信噪比較低的環境中較精確的檢測到語音端點。為實現上述的發明目的,本發明採取的實施方式如下:一種頻帶方差端點檢測方法,包括如下步驟,預處理,加窗分幀處理,所述的預處理是對語音信號進行參數分析之前對該信號用一預加重濾波器進行濾波,該濾波器為:H(Z) = 1-UZ-1 ;所述的加窗分幀處理,選擇漢明窗作為窗函數,漢明窗表達式如下:
權利要求
1.一種頻帶方差端點檢測方法,其特徵在於:包括如下步驟,預處理,加窗分幀處理,所述的預處理是對語音信號進行參數分析之前對該信號用一預加重濾波器進行濾波,該濾波器為:H(Z) = 1-UZ-1 ;所述的加窗分幀處理,選擇漢明窗作為窗函數,漢明窗表達式如下:
2.根據權利要求1所述的頻帶方差端點檢測方法,其特徵在於:在端點檢測時,在利用頻帶方差的基礎上,包含了語音的諧波譜線和其他頻段的差異,公式如下:Dl =D+a*[ (x(Wj)-E)2+(x(Wj)-E)2],其中D是頻帶方差值,a為權值,取正值,E為頻帶能量均值。
全文摘要
本發明涉及一種頻帶方差端點檢測方法,該方法基於語圖譜的分析,突出了語音信號與電信號的區別,在低信噪比環境下能准確檢測出語音端點,並保障了實時性。保證了在低信噪比環境下,一些在高信噪比環境下具有良好性能的方法無法有效工作。
E. 翻譯 。成英文的。。。。
隨著時代的發展,人們越來越注重生活的品質。便捷時尚成為當代人們的追求目標。現在,語音信號處理的技術趨於完善,語音識別技術的應用有兩個發展方向:一個是大詞彙量連續語音識別系統,主要應用於計算機的聽寫輸入等;另一個是小型化﹑攜帶型語音模塊的應用,如手機的撥號﹑汽車設備的語音控制等方面的應用,這些應用大多都需要使用硬體實現。
With the development of The Times, people pay more and more attention to the quality of the life. Convenient fashion become the contemporary people's pursuit of the goal. Now, the speech signal processing technology, perfect speech recognition technology application has two development direction: a large vocabulary continuous speech recognition system, mainly applies in the computer's dictation input, etc.; Another is miniaturization, portable speech mole of applications, such as mobile phone dialer, auto equipment voice control of the application, these applications are mostly need to use hardware implementation.
在此次課程設計中,我們引用現今較為成熟的語音信號處理技術,設計一個簡單的非實時語音信號識別系統。其主要技術指標是識別率和計算量,其關鍵是特徵參數的提取和模式識別方法。測試模板將預先錄制好的0-9的語音文件用按鍵方式輸入,經過A/D轉換晶元0809後轉化為數字信號,在單片機AT89C52中,先用端點檢測將語音中有用的語音部分提取出來(即將頭部和尾部的靜音部分除掉),然後用LPC演算法提取語音信號的特徵參數,進行動態歸整(DTW演算法)後與模板庫裡面的標准語音作比較,最後將識別結果進行D/A轉化後播放出來。 本文將以一個能識別數字0~9的語音識別系統的實現過程為例,闡述了基於DTW演算法的特定人孤立詞語音識別的基本原理和關鍵技術。其中包括對語音端點檢測方法、特徵參數計算方法和DTW演算法實現的詳細討論,最後給出了在Matlab下的編程方法和實驗結果。
In this course design, we quoted today a mature voice signal processing technology, design a simple the real-time speech signal recognition system. The main technical indexes is recognition rate and computational complexity, its key is feature parameters extraction and pattern recognition. Test template will advance the recorded audio file 0-9 with key way input, after A/D conversion chip after 0809 into digital signals, the microcontroller AT89C52 single, use first endpoint detection will be useful in part phonetic pronunciation is extracted from the head and tail (away), then mute the parts of speech signal LPC rules algorithm with extract the dynamic characteristic parameters, DTW algorithm) GuiZheng (after the standard pronunciation and template garage comparison, finally will identify results are D/A transformation broadcast out after. This paper will take a can identify the digits 0 ~ 9 the realization process of speech recognition system as an example, this paper expounds the DTW algorithm based on a person isolated words speech recognition of basic principle and key technology. Including speech endpoint detection methods, characteristics parameters calculation method and a detailed discussion of DTW algorithm, and finally presents the programming method in Matlab and experimental results.
F. endpoint's是誰的縮寫
endpoint is。
endpoint's是endpoint is的縮寫。is的縮寫是's,'s和s'是「的」的意思,單數的話後邊是's,復數的話後邊是s。
endpoint,n終點;端點;光線的端點。雙語例句如下:1、Speech Endpoint Detection Algorithm Analysis Based on Short-term Energy Ratio。基於短時能量比的語音端點檢測演算法的研究。
2、Study on a Scheme of Speech Endpoint Detection Based on Information Entropy。基於信息熵的語音端點檢測方法的研究。
3、With the only strength left in her, she managed to get up and shuffled feebly to the endpoint with drops of blood along her trail but cheers broke out。她用身上僅剩的力氣,掙扎著站起來,一步步地走到終點線,路上是一滴滴的鮮血,觀眾的喝彩聲爆發了。
G. 端點檢測容易受什麼影響
語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。在實際應用中,語音識別系統的性能會受到各種因素的影響。影響語音識別能力的一個重要因素是語音端點檢測的准確性。在實驗室條件下普通的語音識別系統能達到較高的識別率,但如果有一定的背景雜訊,特別是強背景雜訊存在的應用場合,性能將會急劇下降。因此,如何提高語音識別系統在雜訊環境下的魯棒性,是語音識別研究中的一個重要的課題。
本文就雜訊環境下語音端點檢測技術的開發進行了探討,提出了一種基於信號的相關函數的語音端點檢測法,它採用了極性相關法進行計算並提供了相應的關鍵演算法,通過對語音識別實驗的比較,考察了該演算法的有效性和實用性。與傳統的語音端點檢測法相比,本文提出的端點檢測法能使語音/非語音成份估計及分離變得更為有效和方便,同時由於極性相關法採用取小累加處理法從而使得端點檢測運算量可大為減少。
本文由四部分組成:
第一章引言。闡述了課題的研究背景與意義,
第二章語音信號處理和端點檢測。介紹了語音信號處理和端點檢測中的一些基本概念、原理和方法。
第三章基於信號的極性相關函數的語音端點檢測法。這是本文的核心部分,著重對基於極性相關法的帶噪語音端點檢測進行了討論,具體探討了極性相關法的關鍵演算法,給出部分統計數據和結果總結。
H. 誰知道語音識別這方面的知識!!!
高性能漢語數碼語音識別演算法
李虎生 劉加 劉潤生
摘 要: 提出了一個高性能的漢語數碼語音識別(MDSR)系統。 MDSR系統使用Mel頻標倒譜系數(MFCC)作為主要的語音特徵參數,同時提取共振峰軌跡和鼻音特徵以區分一些易混語音對,並提出一個基於語音特徵的實時端點檢測演算法,以減少系統資源需求,提高抗干擾能力。採用了兩級識別框架來提高語音的區分能力,其中第一級識別用於確定識別候選結果,第二級識別用於區分易混語音對。由於採用了以上改進, MDSR系統識別率達到了98.8%.
關鍵詞:漢語; 數碼語音識別
分類號:TN 912.34 文獻標識碼:A
文章編號:1000-0054(2000)01-0032-03
High performance digit mandarin
speech recognition
LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)
Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words:mandarin;digit speech recognition▲
漢語數碼語音識別 (mandarin digit speech recognition, MDSR) 是語音識別領域中一個具有廣泛應用背景的分支,它的任務是識別「0」到「9」等10個非特定人漢語數碼語音,在電話語音撥號、工業監控、家電遙控等領域有著極大的應用價值〔1〕。但與英語數碼語音識別相比, MDSR的性能尚未達到成熟應用水平,這是因為 1) 漢語數碼語音的混淆程度較高; 2) 漢語是一個多方言語種,說話人會帶有或多或少的地方口音; 3) 在許多應用背景中,MDSR需要在運算和存儲資源都較為緊張的數字信號處理器(digital signal processor, DSP)系統上實現,這為MDSR演算法的設計帶來了很大的限制。由於以上原因,MDSR是一項相當困難的任務。
針對漢語數碼語音識別提出了一系列高性能的演算法,使MDSR識別率達到了98.8%。由這些演算法構成的識別系統框圖如圖1所示。
MDSR系統〔1〕提取的語音特徵參數包括用於識別的參數和用於端點檢測的參數。
圖1 MDSR系統框圖
1 語音前端處理
語音前端處理包括語音特徵提取和端點檢測兩部分。
1.1 語音特徵提取
1.1.1 基本識別參數
目前常用的語音識別參數有基於線性預測編碼(LPC)的線性預測倒譜系數(LPCC)和基於Mel頻標的倒譜系數(MFCC)〔2〕。實驗證明,採用MFCC參數時系統識別率高於採用LPCC參數。因此本文的基本識別參數採用MFCC參數及一階差分MFCC參數。
1.1.2 共振峰軌跡
在MDSR中,易混淆語音「2」和「8」可以由其第2,3共振峰的變化趨勢區分開〔3〕。因此可將共振峰軌跡作為識別參數之一,並選用峰值選取演算法來提取共振峰軌跡〔3〕。
1.1.3 鼻音特徵參數
漢語數碼語音中,「0」的母音具有鼻音的特徵,而「0」容易與具有非鼻化母音的「6」混淆,因此鼻音特徵可用於提高「0」的識別率。鼻音的特徵包括〔4〕:
1) 鼻音在頻譜低端(約0.25kHz左右)有1個較強的共振峰。
2) 鼻音在中頻段(約0.8~2.3kHz)的能量分布較為均勻,沒有明顯的峰或谷。
採用以下2個參數表徵鼻音的特徵:
1) 低頻能量比:
(1)
其中fn為鼻音低頻共振峰頻率, B為鼻音低頻共振峰帶寬。Fk為對語音作快速Fourior變換(FFT)後第k個頻率點的能量, 〔f1,f2〕則為語音「6」能量集中的頻帶。
2) 頻譜質心:
(2)
其中〔fL,fH〕為0.8~2.3kHz的中頻段。由於MDSR系統採用的基本識別參數為MFCC參數,其計算過程中需要作FFT,所以低頻能量比和頻譜質心兩個參數可以順帶算出,不會影響特徵提取的實時完成。
1.2 端點檢測
本文提出了基於語音特徵的實時端點檢測演算法(feature-based real-time endpoint detection, FRED),充分利用漢語數碼語音的特點,在實時提取特徵參數後完成端點檢測,檢測到的端點只精確到幀的量級。
根據語音學知識〔4〕, MDSR中各類語音的頻譜特點如表1
表1 漢語數碼語音頻譜特點
頻 譜 特 征
濁 音 元 音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較高
濁輔音 低頻(0.1至0.4kHz間)能量較高; 中頻(0.64至2.8kHz)能量較低
清輔音 高頻(3.5kHz以上)能量較高
採用3個頻譜能量分布參數{R1,R2,R3}分別反應頻譜高頻、低頻和中頻的分布特徵。其定義如下:
(3)
(4)
其中: i表示第i幀, N為語音幀長,也即FFT點數, Fk為對語音幀作FFT後各頻率點能量, T為語音的總幀數,式(3),(4) 中求和號的上下限由表1中相應頻率范圍確定,當N為256,采樣頻率為實驗所用語音庫的11kHz時, f0=81, f1=9, f2 =2, f3=65, f4=15.由於進行了能量歸一化,所以上述特徵與語音的強度是無關的。由於計算MFCC參數時需要作FFT,因此頻譜能量分布參數可以順帶算出。此外,用於端點檢測的參數還包括短時能量參數E0(i)〔5〕.
由以上參數, FRED演算法過程為:
1) 根據采入信號首尾兩幀確定能量閾值;
2) 根據參數R2確定語音濁音段;
3) 根據參數R1與E0向濁音段兩端擴展式搜索語音起始幀;
4) 根據參數R3確定母音段。
FRED演算法的特點是:
1) 利用了語音的本質特徵進行端點檢測,能夠很好地適應環境的變化和干擾,實驗證明FRED演算法可以有效地提高識別率; 2) 將語音端點定在幀的量級上,保證了特徵參數在采樣時實時提取,節省了系統運行時間,大大減少了系統所需的存儲量; 3) 能夠准確地確定語音的母音段,從而將輔音與母音分割開,有利於對語音局部特徵的辨識。
2 識別演算法
實驗表明, MDSR的識別錯誤集中在少數幾對易混語音中〔1〕,因此本文採用了兩極識別框架,即第一級完成對識別結果的初步確定,第二級完成對易混淆語音的進一步辨識。
2.1 第一級識別
在第一級識別中採用的基本方法為離散隱含Malkov模型(DHMM)演算法〔5〕,用Viterbi演算法〔5〕計算各個數碼語音模型產生采入語音的概率Pr。
由於HMM是一個有人為假設的模型,所以有不可避免的缺陷。其中一個缺陷是在HMM中各狀態的持續時間呈幾何分布,即
P(Li=n)=anii(1-aii), (5)
其中: Li為狀態i的持續時間, aii為狀態i跳轉回自身的概率。按照式(5),狀態持續時間越長,其概率越小,這是不符合實際情況的。用Γ分布來描述狀態持續時間〔5〕,即
(6)
其中αi和βi為Γ分布的參數, Fi為歸一化因子參數,以上各參數在訓練時由訓練語音樣本估計出。在識別時,用Viterbi演算法獲得的最佳狀態路徑中各狀態持續時間的概率對Pr作修正:
(7)
其中: λ為加權系數, S為狀態數。識別結果則由修正後的概率P�′r獲得。實驗證明,用狀態持續時間分布對Pr進行修正所得的識別性能有明顯的提高。
2.2 第二級識別
對第一級識別的錯誤作分析,我們發現大部分錯誤都集中在少數幾對易混語音中。表2列出了識別錯誤最多的6對語音(其中「1」念為〔yao〕)占所有錯誤的百分比及其區分特徵。可見這6對語音占所有錯誤的91%,所以如果能夠在第二級識別中對這幾對語音作進一步的辯識,整個MDSR系統的性能會有很大的提高。
表2 易混語音錯誤百分比及其區分特徵
易混語音 占識別錯誤百分比/% 區分特徵
「2」「8」 45 共振峰軌跡變化趨勢
「1」「9」 12 不同的輔音
「1」「6」 11 不同的輔音
「0」「6」 11 鼻音特徵的有無
「3」「4」 8 不同的母音
「6」「9」 4 輔音的清濁性
由表2可見,易混語音「2」「8」, 「0」「6」, 「6」「9」可以用表徵其區分特徵的參數,根據一定的規則進行判決,而「1」「9」, 「1」「6」, 「3」「4」則可以利用端點檢測中元、輔音分割的結果,訓練母音部分和輔音部分的HMM參數,在識別時針對相應部分再作一次局部HMM識別。表3列出了各對易混語音第二級識別的方法。
表3 第二級識別方法
易混語音 第二級識別方法 規則判決的特徵參數或
局部HMM的辨識部位
「2」「8」 規則判決 共振峰軌跡
「1」「9」 局部HMM辨識 輔音
「1」「6」 局部HMM辨識 輔音
「0」「6」 規則判決 鼻音特徵
「3」「4」 局部HMM辨識 母音
「6」「9」 規則判決 頻譜分布參數R1
3 實驗結果
實驗使用了一個包含160人從「0」到「9」的各一遍發音的語音庫來測試系統的性能,庫中語音采樣率為11kHz,量化精度為16bit線性量化,錄音背景為普通辦公室環境。
首先測試了特徵參數採用LPCC參數,端點檢測採用快速端點檢測演算法〔6〕,只用Viterbi演算法進行一級識別時的基本結果,然後測試了逐個加入本文所提出的各種方法後的識別率,結果如表4。可見,所採用的每一種方法都使系統性能較之於基本系統有了顯著的提高,最後達到98.8%的識別率。
表4 演算法性能比較
採用的演算法 識別率/%
基本結果 91.1
採用MFCC參數 92.9
FRED演算法 95.4
狀態持續時間分布 96.0
第二級識別 98.8
4 結 論
採用了一系列演算法,有效地提高了MDSR系統的識別率,實現了一個高性能的MDSR系統,其特點為:
1) 採用了兩極識別框架,增強了對易混語音的區分能力。
2) 充分利用針對漢語數碼語音的語音學知識,提高了端點檢測的抗干擾能力,提取了用於區分易混語音的共振峰軌跡、鼻音特徵等聲學特徵,進一步提高了系統識別率。
3) 各演算法所需的運算量和存儲量都較小,有利於MDSR在DSP系統上的實現。■
基金項目:國家自然科學基金項目(69772020)和國家「八六三」高技術項目(863-512-9805-10)
作者簡介:李虎生 (1975-), 男(漢), 四川, 碩士研究生
作者單位:李虎生(清華大學,電子工程系,北京,100084)
劉加(清華大學,電子工程系,北京,100084)
劉潤生(清華大學,電子工程系,北京,100084)
參考文獻:
〔1〕顧良, 劉潤生. 漢語數碼語音識別: 困難分析與方法比較 〔J〕. 電路與系統學報, 1997, 2 (4): 32-39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4): 32-39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366.
〔3〕李虎生, 楊明傑, 劉潤生. 用共振峰軌跡提高漢語數碼語音識別性能 〔J〕. 清華大學學報, 1999, 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9): 69-71. (in Chinese)
〔4〕吳宗濟, 林茂燦. 實驗語音學教程 〔M〕. 北京: 高等教育出版社, 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing: Higher Ecation Press, 1989. (in Chinese)
〔5〕楊行峻, 遲惠生. 語音信號數字處理 〔M〕. 北京: 電子工業出版社, 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing: Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顧良. 漢語數碼語音識別方法研究及DSP系統設計 〔D〕. 北京: 清華大學, 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing: Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM