导航:首页 > 解决方法 > 端点检测方法

端点检测方法

发布时间:2022-08-30 14:44:47

A. 语音识别的前端处理

前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。

B. 求端点检测方法研究的论文

具体格
式啊,具体格
式啊,

C. matlab语音处理时进行分帧,怎么确定给出帧长和帧移的量,wlen=, inc=

一般时域分帧10-30ms(这是我在中科院一本《说话人识别的书》上看到的数据),根据你的采样率就可以确定wlen的长度,inc一般取wlen的20%-30%左右,基于短时平稳特性具体我没有查到量化资料,看别人工程猜测的。
端点检测的方法很多,一般常用短时能量和短时过零率检测, 确定汉语音节,都是以帧为单位,具体是设定阈值,查找起止,不过这种方法对信噪比要求稍高,我最近正在做,感觉效果不是很好,具体的方法你可以查宋知用老师的一本书,《matlab在语音信号分析与合成中的应用》,写得非常,非常,非常,非常好!!!!!!!!!!!!!!!!

宋老师是国内语音分析最早的研究人员,从事40余年,致敬!
他在matlab论坛的回复:(原话复制,就忽略我说的。。。。)
”请LZ细看一下该书的第二章。不论用哪一种方法都要对帧长wlen和帧移inc进行赋值。书中处理语音信号,语音信号是一种准周期性的信号,一般认为语音在10-30ms之内是稳态的,所以取帧长也在10-30ms之内,有取20ms,也有取30或40ms。而帧移常取5-15ms之间。“

D. 语音端点检测的方法有频带方程法吗

背景技术:
有效语音的起止端点检测是语音处理中重要的一环。在实际运用中,特别是在语音识别中,系统的使用效果不仅仅限于识别算法,能否既快又准确的检测到语音端点,很大程度上影响着语音系统实际应用的成功与否。在实际运用中,运用最多的断点检测方法是基于能量和短时过零率双门限的检测方法。该方法实现简单,计算复杂度小,实时性好,在背景干净的环境下性能良好。但在信噪比较低的环境中该方法的性能已无法达到实用要求。

发明内容
本发明涉及一种频带方差端点检测方法,可以在信噪比较低的环境中较精确的检测到语音端点。为实现上述的发明目的,本发明采取的实施方式如下:一种频带方差端点检测方法,包括如下步骤,预处理,加窗分帧处理,所述的预处理是对语音信号进行参数分析之前对该信号用一预加重滤波器进行滤波,该滤波器为:H(Z) = 1-UZ-1 ;所述的加窗分帧处理,选择汉明窗作为窗函数,汉明窗表达式如下:
权利要求
1.一种频带方差端点检测方法,其特征在于:包括如下步骤,预处理,加窗分帧处理,所述的预处理是对语音信号进行参数分析之前对该信号用一预加重滤波器进行滤波,该滤波器为:H(Z) = 1-UZ-1 ;所述的加窗分帧处理,选择汉明窗作为窗函数,汉明窗表达式如下:
2.根据权利要求1所述的频带方差端点检测方法,其特征在于:在端点检测时,在利用频带方差的基础上,包含了语音的谐波谱线和其他频段的差异,公式如下:Dl =D+a*[ (x(Wj)-E)2+(x(Wj)-E)2],其中D是频带方差值,a为权值,取正值,E为频带能量均值。
全文摘要
本发明涉及一种频带方差端点检测方法,该方法基于语图谱的分析,突出了语音信号与电信号的区别,在低信噪比环境下能准确检测出语音端点,并保障了实时性。保证了在低信噪比环境下,一些在高信噪比环境下具有良好性能的方法无法有效工作。

E. 翻译 。成英文的。。。。

随着时代的发展,人们越来越注重生活的品质。便捷时尚成为当代人们的追求目标。现在,语音信号处理的技术趋于完善,语音识别技术的应用有两个发展方向:一个是大词汇量连续语音识别系统,主要应用于计算机的听写输入等;另一个是小型化﹑便携式语音模块的应用,如手机的拨号﹑汽车设备的语音控制等方面的应用,这些应用大多都需要使用硬件实现。

With the development of The Times, people pay more and more attention to the quality of the life. Convenient fashion become the contemporary people's pursuit of the goal. Now, the speech signal processing technology, perfect speech recognition technology application has two development direction: a large vocabulary continuous speech recognition system, mainly applies in the computer's dictation input, etc.; Another is miniaturization, portable speech mole of applications, such as mobile phone dialer, auto equipment voice control of the application, these applications are mostly need to use hardware implementation.

在此次课程设计中,我们引用现今较为成熟的语音信号处理技术,设计一个简单的非实时语音信号识别系统。其主要技术指标是识别率和计算量,其关键是特征参数的提取和模式识别方法。测试模板将预先录制好的0-9的语音文件用按键方式输入,经过A/D转换芯片0809后转化为数字信号,在单片机AT89C52中,先用端点检测将语音中有用的语音部分提取出来(即将头部和尾部的静音部分除掉),然后用LPC算法提取语音信号的特征参数,进行动态归整(DTW算法)后与模板库里面的标准语音作比较,最后将识别结果进行D/A转化后播放出来。 本文将以一个能识别数字0~9的语音识别系统的实现过程为例,阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术。其中包括对语音端点检测方法、特征参数计算方法和DTW算法实现的详细讨论,最后给出了在Matlab下的编程方法和实验结果。

In this course design, we quoted today a mature voice signal processing technology, design a simple the real-time speech signal recognition system. The main technical indexes is recognition rate and computational complexity, its key is feature parameters extraction and pattern recognition. Test template will advance the recorded audio file 0-9 with key way input, after A/D conversion chip after 0809 into digital signals, the microcontroller AT89C52 single, use first endpoint detection will be useful in part phonetic pronunciation is extracted from the head and tail (away), then mute the parts of speech signal LPC rules algorithm with extract the dynamic characteristic parameters, DTW algorithm) GuiZheng (after the standard pronunciation and template garage comparison, finally will identify results are D/A transformation broadcast out after. This paper will take a can identify the digits 0 ~ 9 the realization process of speech recognition system as an example, this paper expounds the DTW algorithm based on a person isolated words speech recognition of basic principle and key technology. Including speech endpoint detection methods, characteristics parameters calculation method and a detailed discussion of DTW algorithm, and finally presents the programming method in Matlab and experimental results.

F. endpoint's是谁的缩写

endpoint is。
endpoint's是endpoint is的缩写。is的缩写是's,'s和s'是“的”的意思,单数的话后边是's,复数的话后边是s。
endpoint,n终点;端点;光线的端点。双语例句如下:1、Speech Endpoint Detection Algorithm Analysis Based on Short-term Energy Ratio。基于短时能量比的语音端点检测算法的研究。
2、Study on a Scheme of Speech Endpoint Detection Based on Information Entropy。基于信息熵的语音端点检测方法的研究。
3、With the only strength left in her, she managed to get up and shuffled feebly to the endpoint with drops of blood along her trail but cheers broke out。她用身上仅剩的力气,挣扎着站起来,一步步地走到终点线,路上是一滴滴的鲜血,观众的喝彩声爆发了。

G. 端点检测容易受什么影响

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。在实际应用中,语音识别系统的性能会受到各种因素的影响。影响语音识别能力的一个重要因素是语音端点检测的准确性。在实验室条件下普通的语音识别系统能达到较高的识别率,但如果有一定的背景噪声,特别是强背景噪声存在的应用场合,性能将会急剧下降。因此,如何提高语音识别系统在噪声环境下的鲁棒性,是语音识别研究中的一个重要的课题。

本文就噪声环境下语音端点检测技术的开发进行了探讨,提出了一种基于信号的相关函数的语音端点检测法,它采用了极性相关法进行计算并提供了相应的关键算法,通过对语音识别实验的比较,考察了该算法的有效性和实用性。与传统的语音端点检测法相比,本文提出的端点检测法能使语音/非语音成份估计及分离变得更为有效和方便,同时由于极性相关法采用取小累加处理法从而使得端点检测运算量可大为减少。

本文由四部分组成:

第一章引言。阐述了课题的研究背景与意义,

第二章语音信号处理和端点检测。介绍了语音信号处理和端点检测中的一些基本概念、原理和方法。

第三章基于信号的极性相关函数的语音端点检测法。这是本文的核心部分,着重对基于极性相关法的带噪语音端点检测进行了讨论,具体探讨了极性相关法的关键算法,给出部分统计数据和结果总结。

H. 谁知道语音识别这方面的知识!!!

高性能汉语数码语音识别算法

李虎生 刘加 刘润生

摘 要: 提出了一个高性能的汉语数码语音识别(MDSR)系统。 MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对,并提出一个基于语音特征的实时端点检测算法,以减少系统资源需求,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力,其中第一级识别用于确定识别候选结果,第二级识别用于区分易混语音对。由于采用了以上改进, MDSR系统识别率达到了98.8%.
关键词:汉语; 数码语音识别
分类号:TN 912.34 文献标识码:A
文章编号:1000-0054(2000)01-0032-03

High performance digit mandarin
speech recognition

LI Husheng LIU Jia LIU Runsheng
(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)

Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to rece the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of 98.8%.
Key words:mandarin;digit speech recognition▲

汉语数码语音识别 (mandarin digit speech recognition, MDSR) 是语音识别领域中一个具有广泛应用背景的分支,它的任务是识别“0”到“9”等10个非特定人汉语数码语音,在电话语音拨号、工业监控、家电遥控等领域有着极大的应用价值〔1〕。但与英语数码语音识别相比, MDSR的性能尚未达到成熟应用水平,这是因为 1) 汉语数码语音的混淆程度较高; 2) 汉语是一个多方言语种,说话人会带有或多或少的地方口音; 3) 在许多应用背景中,MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digital signal processor, DSP)系统上实现,这为MDSR算法的设计带来了很大的限制。由于以上原因,MDSR是一项相当困难的任务。
针对汉语数码语音识别提出了一系列高性能的算法,使MDSR识别率达到了98.8%。由这些算法构成的识别系统框图如图1所示。
MDSR系统〔1〕提取的语音特征参数包括用于识别的参数和用于端点检测的参数。

图1 MDSR系统框图

1 语音前端处理

语音前端处理包括语音特征提取和端点检测两部分。

1.1 语音特征提取
1.1.1 基本识别参数
目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel频标的倒谱系数(MFCC)〔2〕。实验证明,采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。

1.1.2 共振峰轨迹
在MDSR中,易混淆语音“2”和“8”可以由其第2,3共振峰的变化趋势区分开〔3〕。因此可将共振峰轨迹作为识别参数之一,并选用峰值选取算法来提取共振峰轨迹〔3〕。

1.1.3 鼻音特征参数
汉语数码语音中,“0”的元音具有鼻音的特征,而“0”容易与具有非鼻化元音的“6”混淆,因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括〔4〕:
1) 鼻音在频谱低端(约0.25kHz左右)有1个较强的共振峰。
2) 鼻音在中频段(约0.8~2.3kHz)的能量分布较为均匀,没有明显的峰或谷。
采用以下2个参数表征鼻音的特征:
1) 低频能量比:

(1)

其中fn为鼻音低频共振峰频率, B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量, 〔f1,f2〕则为语音“6”能量集中的频带。
2) 频谱质心:

(2)

其中〔fL,fH〕为0.8~2.3kHz的中频段。由于MDSR系统采用的基本识别参数为MFCC参数,其计算过程中需要作FFT,所以低频能量比和频谱质心两个参数可以顺带算出,不会影响特征提取的实时完成。

1.2 端点检测
本文提出了基于语音特征的实时端点检测算法(feature-based real-time endpoint detection, FRED),充分利用汉语数码语音的特点,在实时提取特征参数后完成端点检测,检测到的端点只精确到帧的量级。
根据语音学知识〔4〕, MDSR中各类语音的频谱特点如表1

表1 汉语数码语音频谱特点

频 谱 特 征
浊 音 元 音 低频(0.1至0.4kHz间)能量较高; 中频(0.64至2.8kHz)能量较高
浊辅音 低频(0.1至0.4kHz间)能量较高; 中频(0.64至2.8kHz)能量较低
清辅音 高频(3.5kHz以上)能量较高

采用3个频谱能量分布参数{R1,R2,R3}分别反应频谱高频、低频和中频的分布特征。其定义如下:
(3)
(4)

其中: i表示第i帧, N为语音帧长,也即FFT点数, Fk为对语音帧作FFT后各频率点能量, T为语音的总帧数,式(3),(4) 中求和号的上下限由表1中相应频率范围确定,当N为256,采样频率为实验所用语音库的11kHz时, f0=81, f1=9, f2 =2, f3=65, f4=15.由于进行了能量归一化,所以上述特征与语音的强度是无关的。由于计算MFCC参数时需要作FFT,因此频谱能量分布参数可以顺带算出。此外,用于端点检测的参数还包括短时能量参数E0(i)〔5〕.
由以上参数, FRED算法过程为:
1) 根据采入信号首尾两帧确定能量阈值;
2) 根据参数R2确定语音浊音段;
3) 根据参数R1与E0向浊音段两端扩展式搜索语音起始帧;
4) 根据参数R3确定元音段。
FRED算法的特点是:
1) 利用了语音的本质特征进行端点检测,能够很好地适应环境的变化和干扰,实验证明FRED算法可以有效地提高识别率; 2) 将语音端点定在帧的量级上,保证了特征参数在采样时实时提取,节省了系统运行时间,大大减少了系统所需的存储量; 3) 能够准确地确定语音的元音段,从而将辅音与元音分割开,有利于对语音局部特征的辨识。

2 识别算法

实验表明, MDSR的识别错误集中在少数几对易混语音中〔1〕,因此本文采用了两极识别框架,即第一级完成对识别结果的初步确定,第二级完成对易混淆语音的进一步辨识。

2.1 第一级识别
在第一级识别中采用的基本方法为离散隐含Malkov模型(DHMM)算法〔5〕,用Viterbi算法〔5〕计算各个数码语音模型产生采入语音的概率Pr。
由于HMM是一个有人为假设的模型,所以有不可避免的缺陷。其中一个缺陷是在HMM中各状态的持续时间呈几何分布,即

P(Li=n)=anii(1-aii), (5)

其中: Li为状态i的持续时间, aii为状态i跳转回自身的概率。按照式(5),状态持续时间越长,其概率越小,这是不符合实际情况的。用Γ分布来描述状态持续时间〔5〕,即

(6)

其中αi和βi为Γ分布的参数, Fi为归一化因子参数,以上各参数在训练时由训练语音样本估计出。在识别时,用Viterbi算法获得的最佳状态路径中各状态持续时间的概率对Pr作修正:

(7)

其中: λ为加权系数, S为状态数。识别结果则由修正后的概率P�′r获得。实验证明,用状态持续时间分布对Pr进行修正所得的识别性能有明显的提高。

2.2 第二级识别
对第一级识别的错误作分析,我们发现大部分错误都集中在少数几对易混语音中。表2列出了识别错误最多的6对语音(其中“1”念为〔yao〕)占所有错误的百分比及其区分特征。可见这6对语音占所有错误的91%,所以如果能够在第二级识别中对这几对语音作进一步的辩识,整个MDSR系统的性能会有很大的提高。

表2 易混语音错误百分比及其区分特征

易混语音 占识别错误百分比/% 区分特征
“2”“8” 45 共振峰轨迹变化趋势
“1”“9” 12 不同的辅音
“1”“6” 11 不同的辅音
“0”“6” 11 鼻音特征的有无
“3”“4” 8 不同的元音
“6”“9” 4 辅音的清浊性

由表2可见,易混语音“2”“8”, “0”“6”, “6”“9”可以用表征其区分特征的参数,根据一定的规则进行判决,而“1”“9”, “1”“6”, “3”“4”则可以利用端点检测中元、辅音分割的结果,训练元音部分和辅音部分的HMM参数,在识别时针对相应部分再作一次局部HMM识别。表3列出了各对易混语音第二级识别的方法。
表3 第二级识别方法

易混语音 第二级识别方法 规则判决的特征参数或
局部HMM的辨识部位
“2”“8” 规则判决 共振峰轨迹
“1”“9” 局部HMM辨识 辅音
“1”“6” 局部HMM辨识 辅音
“0”“6” 规则判决 鼻音特征
“3”“4” 局部HMM辨识 元音
“6”“9” 规则判决 频谱分布参数R1

3 实验结果

实验使用了一个包含160人从“0”到“9”的各一遍发音的语音库来测试系统的性能,库中语音采样率为11kHz,量化精度为16bit线性量化,录音背景为普通办公室环境。
首先测试了特征参数采用LPCC参数,端点检测采用快速端点检测算法〔6〕,只用Viterbi算法进行一级识别时的基本结果,然后测试了逐个加入本文所提出的各种方法后的识别率,结果如表4。可见,所采用的每一种方法都使系统性能较之于基本系统有了显着的提高,最后达到98.8%的识别率。

表4 算法性能比较

采用的算法 识别率/%
基本结果 91.1
采用MFCC参数 92.9
FRED算法 95.4
状态持续时间分布 96.0
第二级识别 98.8

4 结 论
采用了一系列算法,有效地提高了MDSR系统的识别率,实现了一个高性能的MDSR系统,其特点为:
1) 采用了两极识别框架,增强了对易混语音的区分能力。
2) 充分利用针对汉语数码语音的语音学知识,提高了端点检测的抗干扰能力,提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征,进一步提高了系统识别率。
3) 各算法所需的运算量和存储量都较小,有利于MDSR在DSP系统上的实现。■

基金项目:国家自然科学基金项目(69772020)和国家“八六三”高技术项目(863-512-9805-10)
作者简介:李虎生 (1975-), 男(汉), 四川, 硕士研究生
作者单位:李虎生(清华大学,电子工程系,北京,100084)
刘加(清华大学,电子工程系,北京,100084)
刘润生(清华大学,电子工程系,北京,100084)

参考文献:

〔1〕顾良, 刘润生. 汉语数码语音识别: 困难分析与方法比较 〔J〕. 电路与系统学报, 1997, 2 (4): 32-39.
Gu Liang, Liu Runsheng. Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4): 32-39. (in Chinese)
〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366.
〔3〕李虎生, 杨明杰, 刘润生. 用共振峰轨迹提高汉语数码语音识别性能 〔J〕. 清华大学学报, 1999, 39(9).
Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9): 69-71. (in Chinese)
〔4〕吴宗济, 林茂灿. 实验语音学教程 〔M〕. 北京: 高等教育出版社, 1989.
Wu Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing: Higher Ecation Press, 1989. (in Chinese)
〔5〕杨行峻, 迟惠生. 语音信号数字处理 〔M〕. 北京: 电子工业出版社, 1995.
Yang Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing: Publishing House of Electronic Instry, 1995. (in Chinese)
〔6〕顾良. 汉语数码语音识别方法研究及DSP系统设计 〔D〕. 北京: 清华大学, 1997.
Gu Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing: Tsinghua University, 1997. (in Chinese)
http://www.oxbad.com/DSP/maindoc/audio/PAGE/5.HTM

阅读全文

与端点检测方法相关的资料

热点内容
oppo手机的助手在哪里设置方法 浏览:539
尖头b2单边桥最简单方法如何对点 浏览:134
灯带安装方法直流 浏览:88
衬衣领子打结方法视频 浏览:980
修复冰晶使用方法 浏览:248
受益所有人的计算方法 浏览:883
黄豆怎么收购方法去杂 浏览:660
a5c用简便方法表示 浏览:266
正方形面积的计算方法 浏览:278
国标铝的检测方法 浏览:118
boa9连接wifi方法 浏览:868
尿素水溶液的检测方法 浏览:571
评职称里的技术创新方法怎么写 浏览:240
电脑取出电池充电方法 浏览:386
体育课快速热身方法 浏览:795
如何看出html的解密方法 浏览:774
弹力带健身使用方法 浏览:603
如何鉴定蜂蜜真假的方法 浏览:666
科目二教育原则和方法有哪些 浏览:856
肝结节怎么治疗最好方法 浏览:857