基于filler模型的语音关键词识别(5)

来源：网络收集时间：2026-06-26

导读：基于Filler模型的语音关键词识别键词表中增加“fu nan”来增加系统对略带口音的普通话发音的适应能力。除了可以从字典扩展模糊发音，还可以从模型级入手，建立嵌入式多模板(EMM)，对各种个性特征如口音、上下文

基于Filler模型的语音关键词识别

键词表中增加“fu nan”来增加系统对略带口音的普通话发音的适应能力。除了可以从字典扩展模糊发音，还可以从模型级入手，建立嵌入式多模板(EMM)，对各种个性特征如口音、上下文关联信息等进行机器划分，在词法树中利用模糊弧分裂技术，识别时自动地把同一语音的各种不同情况分开。

(4)关键词的长度对系统的影响

关键词的长度对检测性能影响比较大，通常关键词越长，检出率越高，梁家恩在2005年863电话连续语音开发集测得三字词的误报率比两字词低10％以上。在限定领域中，基于规则语法的关键词识别系统的识别能力好于无规则的KWS系统，其原因就是由于长时段语句(如句子)比词更加稳定，通过语法规则无形中延伸了关键词的长度，从而提高了关键词的检出能力。在对话系统中，Kawahar提出用“Key phrase”的方法来进行关键词检出。梁家恩通过关键词的合成词构建局部语法网络，将关键词检测的问题转换成关键词短语的检测问题，从而延长了关键词的长度，得到语言增强后的置信度，作为整个关键词的置信度。 (5)关键词确认模块的性能

关键词确认的目标是在几乎不影响正确关键词的检出率的前提下，尽可能地降低误警率。虽然关键词识别算法中也可以通过调整关键词和补白模型的权重来实现误警率的下降，但相应的要以牺牲检出率为代价。目前的关键词检测系统通常都是放松关键词检出部分的限制，尽可能多的检测出关键词，然后通过关键词确认技术去掉置信得分较低的候选。近年来，很少见到关键词检出算法的文章，语音确认算法成为关键词系统的研究重点。除了语音确认算法外，也有人研究确认门限自适应，以适应不同环境条件的变化。Lopez-Cozar等描述了一个电话快餐预定系统，在该系统中他们使用了一种Adaptive Confidence Threshold的策略，在交谈过程中可以根据环境条件的变化，动态调整置信度阈值，通过这样提高对话中句子理解率和减少对话回合数。

2.3 关键词检测基线系统设计方案

我们的关键词检测系统是在Julian语音识别器的基础上开发的，Julian是日本京都大学和日本IPA(Infonnation-technology Promotion Agency)联合开发的基于有限状态语法的开源连续语音识别引擎。

由于我们针对的任务为无限制语音流，采用图2-1(a)的拓扑结构来设计基于垃

基于Filler模型的语音关键词识别

圾模型的关键词系统。采取先检出后认证的策略，通过网络转移权值来平衡系统的漏报和误报。通过实验发现，加大垃圾模组的惩罚系数，对提高系统的检出率有一定影响，但同时会带来更多的误报，而对关键词奖赏要比对垃圾网络惩罚的效果要好，在同样检出率的情况下，误报要少得多，但解码的速度比较慢。我们把系统的关键词奖赏权重设置为：Wi=C*length（KWi），其中C为常数，关键词的转移权重与关键词所包含的声韵母基元个数Length(KWi)有关，经过实验确定C=6达到最佳效果。

考虑到实时性和系统性能，采用扩展的声韵母单元(XIF)作为系统识别单元。我们在实验中发现，用音节基元作为补白模型，虽然检出效果得到很大改善，但由于要扩展的路径太多，导致解码速度很慢，虽然可以通过Beam剪枝去除得分较低的路径，但依然不能满足实时要求，所以垃圾模型模组部分改为采用声韵串接的音节模型，包括sil和全部音节模型，共计403个模型。通过共享前缀词典树组织搜索网络，由于利用了识别单元在发音方面的共性，搜索空间被大大减小，搜索效率得到了提高。由于垃圾模型仅起到吸收集外词的作用，并不需要识别出其真正的内容，我们在Viterbi解码的过程中，对每个时刻点结束的所有补白，仅允许其累计概率最大的项进行扩展。这样不但能使解码速度得到很大提升，而且使系统占用的内存很小，系统的检出率也不受影响。最终，我们设计的关键词检测基线系统如图2-3所示。

关键词模组 Keyword 1 Keyword 2 G G kw1 G kwm…GG Keyword M 关键词确认 b+i z+a0 垃圾模型模组图2-3 基线KWS系统方案

选择累积分最大的路径扩展基于Filler模型的语音关键词识别

第三章关键词语音确认方法

3.1 基于似然比的关键词语音确认算法

在统计学习理论中，假设检验是研究地比较深入的一个课题。受说话人确认技术的启发，Rahim和Sukkar等人提出利用假设检验解决置信度计算问题。他们把用假设检验方法解决语音置信度问题称之为似然比(LR)方法。

假定某段语音特征矢量O被识别成某个词W，语音确认问题可以用统计学的假设检验来描述。定义：

H0:原假设，O被正确识别为W； H1:备择假设，O被正确识别为非W。

（3-1）

其中，称为W的反词模型或备择模型。可以通过多种方式计算似然比。Rose和Paul考虑到关键词似然得分的时变特性，在进行似然比打分时使用了图3-1的并行“背景网络\得到似然比分数，背景网络为音素循环网络。这种方法较为简单，有一定健壮性，但由于加入音素循环网络进行识别，计算代价比较高。

S语音关键词—补白网络 + KW ? 背景网络 - S图3-1通过背景网络获取关键词似然比得分

在以HMM为基础的语音识别系统中，词通常由子词串接而成，可以先通过关键词-补白网络产生包含关键词和补白的识别结果，由识别结果回溯得到关键词的词边界，然后通过时间对齐得到关键词的子词边界，把似然比的计算分解到子词层计算，最终关键词的LR分数由子词似然比的计算结果得到。相比上面提到的“背

基于Filler模型的语音关键词识别

景网络\方法，这种方法精度要高，而且计算代价比较低。

子词层的似然比可以表示为：

(3-2)

其中为目标子词对应的HMM模型，为其对应的反词模型。通常似然比的结果动态范围比较大，Lee指出，似然比可以通过S函数进行非线性变换，压缩到[0，1]区间，转换为置信度的形式。

其中

（3-3）

，控制S函数的平滑程度。需要注意的是，这里的CM只具备比较意

义，而不具备概率函数意义。似然比方法具有较好的统计学理论基础，计算速度快。在基于垃圾模型的KWS系统中，通常采用这种方法进行语音确认。由于反词包括目标子词的补空间，而这个补空间显然范围是很广的，很难用确切的数学模型来描述，所以似然比方法的难点在于如何对反词模型建模，确认算法性能的好坏主要取决于对备择假设概率密度函数的拟合能力。

用于求反词模型得分的方法可以分为两类：训练明确反词模型

这种方法需要利用语料库来训练反词的HMM模型。Eduardo把反词模型分为两部分：

（3-4）

其中

称为冒充模型，用来对混淆音建模，

利用与目标子词最容易混淆的

和

采

前N个子词的语料训练得到。称为背景模型，用所有的训练语料生成。

用与目标模型同样的HMM结构，不同的是背景模型含有较多的混合高斯分量(通常

?32)。直接用极大似然准则训练的HMM效果较差，需要利用区分性训练方法来进行模型参数调整。最小确认错误(Minimum Verification Error，MVE)是最常用的反词模型训练算法，通过广义概率下降(Generalized Proba …… 此处隐藏：2377字，全部文档内容请下载后查看。喜欢就下载吧 ……

基于filler模型的语音关键词识别(5).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.jiaowen.net/wendang/434572.html（转载请注明文章来源）

上一篇：优质稻生产基地建设项目可行性研究报告书
下一篇：选煤厂安全管理汇报