基于filler模型的语音关键词识别(4)

来源：网络收集时间：2026-06-26

导读：基于Filler模型的语音关键词识别第二章基于Filler模型的关键词检测技术基于Filler模型的关键词检测(Keyword Spotting，KWS)系统可以说是最早最经典的关键词识别系统，在实时性要求高的场合，如人机对话，语音拨

基于Filler模型的语音关键词识别

第二章基于Filler模型的关键词检测技术

基于Filler模型的关键词检测(Keyword Spotting，KWS)系统可以说是最早最经典的关键词识别系统，在实时性要求高的场合，如人机对话，语音拨号等环境，研究人员倾向于使用这种关键词检测系统。只需要从连续语流中检测一组给定的关键词，而不需要对所有的语音进行识别。这类系统往往需要比较快速地检测出需要的词，而且要具有一定的据识能力，减少系统的误操作或者误报。对这类弱语法约束条件下的置信度计算，主要是利用声学置信度，在要求比较高的情况下，也可以加入一些语法约束信息进行辅助判别。

2.1 基于filler模型的关键词检出原理

在基于垃圾模型的关键词系统中，垃圾模型用来吸收关键词之外的各种语言现象，包括集外词(OOV)，常见的非语言现象(背景噪声、咳嗽、喘气)。关键词检测系统的任务是从连续语流中检测出给定的关键词，并给出相应的置信度，一般不需要对全文进行识别。从解决关键词检测问题本身来说，我们一般有以下三种基本方法：

(1)对输入语音用LVCSR系统进行全文识别，给出相应的文本结果，再从这些文本结果中检索给定关键词。这种方法的优点在于可以充分利用语言模型知识，对误报的压制能力比较强；缺点在于速度比较慢，对集外词缺乏灵活性，受语法外（Out-Of-Grammar, OOG）部分语音的影响比较大。这种方法比较适合于实时性要求不高，集外词比较少的场合。

(2)用关键词加上垃圾网络的方式检索关键词，这种方法速度比较快，对垃圾词不敏感，检出率比较高；缺点在于只能用声学信息检测关键词，误报比较多，更换词表时需要重新进行声学匹配。

(3)用音素或音节识别器构建音素或音节的词图，再根据相似度到词图上检索需要的关键词，这种方法相当于上述两种方法的折衷，优点是相对比较灵活，而且更换词表不需要重新进行声学匹配，缺点是对词图的容错能力要求比较高，对比较短的关键词检测不利。

从上面的三种方法对比来看，LVCSR的系统不是很适合关键词检测的任务，缺乏灵活性，而且关键词通常是人名、地名等出现频率不是很高的词，甚至是集外

基于Filler模型的语音关键词识别

词。因此，目前的关键词检测系统大多采用后面两种框架。根据允许输入语音的自由程度，KWS可以分为输入完全符合规则语法的系统、无限制的系统和介于二者之间的系统。

关键词模组 Keyword 1 Keyword 2 Keyword M Filler 1 Filler N 垃圾模型模组 (a) 关键词检测系统搜索网络类型I

关键词HMM串

Filler 1 Keyword 1 Filler 1 Filler 2 Keyword 2 Keyword 3 Filler 2 Filler 3 Filler 3 。。。。。。Filler M 。。。。。。Keyword N 。。。。。。Filler M 垃圾模型模组关键词模组 (b) 关键词检测系统搜索网络类型II

垃圾模型模组

图2-1 基于垃圾模型的关键词检测系统搜索网络

基于Filler模型的语音关键词识别

图2-1(a)和图2-1(b)给出了两种常用的基于垃圾模型的KWS系统搜索网络,前者用于检出无限制语音流中可能含有的任意多个关键词。而后面加了一个约束，仅允许一句话中出现一个关键词，适合于简单的命令控制场合或语音命令菜单。

理论上说，关键词也可以从垃圾模组的识别基元组合出来，因此，为了检测出关键词，防止关键词被垃圾模型吞没，必须对垃圾网络加上一定的惩罚或对关键词网络进行奖赏，通过调整这个惩罚或者奖励的权重，就可以调节系统的检出率，但同时误报率也会发生相应变化，需要通过置信度评估来拒绝掉假冒的关键词，此过程称为关键词确认。

框图中垃圾模型模组有两个基本作用：一是作为填充网络（Fillers）对非关键词部分语音进行建模和过滤；二是作为背景模型，对关键词的声学得分进行归一化，计算关键词的声学置信度。理想的垃圾模型应有足够的能力吸收除关键词之外所有剩余的语音信号，同时与关键词模型之间又有足够远的距离，使其不具备竞争关键词所对应的语音段的能力。根据垃圾模型的来源不同，关键词检出算法可以分为三类：明确垃圾模型、动态垃圾模型、滑动窗方法。

(1)明确垃圾模型。明确垃圾模型就是要对垃圾模型模组的Filler（补白）建立实际的物理模型。建立模型的方法可以细分为两种：一种是子词补白，补白与关键词共享同一套子词单元模型集，补白模型由子词模型拼接组合而成。子词一般为比关键词更小的发音单元，如声韵母和音节，关键词则是这些小的发音单元的串接，通过调整关键词的奖赏分数来区别关键词和补白模型。子词补白方法在实际使用中修改关键词集的定义时无须重新训练子词模型，具有较好的灵性。缺点则是补白模型多、算法复杂度高。另外一种是集外补白，专门为Filler建立HMM或GMM声学模型。集外补白模型完全独立于关键词所对应的声学模型集，可以只包含一个通用的补白模型，也可以是若干个补白模型构成的集合。在训练集外补白模型时，将训练数据中除关键词之外的额外输入分为若干类，其中的每一类

训练一个模型。集外补白方法的优点是结构简单、算法复杂度低，尤其在训练数据较少的应用或嵌入式系统中用途较广，但由于其补白模型比较简单，对非关键词的拟合能力不如子词补白。

(2)在线垃圾(On line Garbage，OLG)模型。对于图2-1(a)，如果把垃圾模型模组拿掉，就可以构成基于OLG的KWS系统。OLG模型是虚拟的模型，OLG模型的思想是在Viterbi搜索过程中，对每一个语音帧，计算所有存活于关键词的语音识别单

基于Filler模型的语音关键词识别

元的似然分数，识别单元可以选音素、状态，对每一帧语音，OLG的得分是该帧信号对应的N个最优匹配单元的平均分，在这种方式下，OLG不是最佳的匹配者，但肯定属于较优匹配者，只有当一段语音同关键词比较匹配时，关键词的整体成绩才可望在与OLG的竞争下胜出。和明确垃圾模型相比，OLG具有较好的鲁棒性。这是因为，在噪音环境下时，对于一段语音，所有的HMM模型都匹配不好，打分都低了，最终导致在线垃圾模型的得分也相应降低。而在明确垃圾模型的情况下，所有的模型打分都不准确，混淆子词的打分很容易超过目标子词，从而导致关键词检测系统的性能下降，降低了系统的鲁棒性。

实验证明，当关键词个数很少时，OLG模型的性能会变得很差。另外，由于没有真正对集外词发音建模，在线垃圾模型的时间对齐的效果不如明确垃圾模型。

(3)滑动窗算法。这种算法不使用补白模型，而是基于这样的思想：即一开始从语音数据的第一个点开始进行搜索，在得到结果后再选择下一个搜索起点进行下一轮搜索，直至认为没有可能再出现关键词为止。由于可以从语音的任意起点开始搜索，这种方法的好处在于最大限度地提高了关键词的检出率，但同时也带来误警率较高，运算量大等问题，所以不如前两种方法应用广泛。

2.2 影响关键词系统性能的因素

在基于垃圾模型的KWS系统中，影响其系统性能的因素主要有： (1)声学模型的选取。

由于不像LVCSR存在语言模型的指导，声学模型对KWS系统影响至关重要。从模式识别的角度来看，声学基元建模除了描述数据中所蕴含的反应其本质的分类信息，还要增加模型间的区分能力，才能获得较好的分类效果。传统声学模型训练采用基于最大似然 …… 此处隐藏：2951字，全部文档内容请下载后查看。喜欢就下载吧 ……

基于filler模型的语音关键词识别(4).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.jiaowen.net/wendang/434572.html（转载请注明文章来源）

上一篇：优质稻生产基地建设项目可行性研究报告书
下一篇：选煤厂安全管理汇报