基于filler模型的语音关键词识别(2)

来源：网络收集时间：2026-06-26

导读：基于Filler模型的语音关键词识别第一章绪论关键词识别[3](KWR，Keyword Recognition)，又称关键词检出(KWS，Keyword Spotting)或者词检出(WS，Word Spotting)，就是在连续的、无限制的话语中识别出一组给定的词,

基于Filler模型的语音关键词识别

第一章绪论

关键词识别[3](KWR，Keyword Recognition)，又称关键词检出(KWS，Keyword Spotting)或者词检出(WS，Word Spotting)，就是在连续的、无限制的话语中识别出一组给定的词,即关键词，而忽略话语中除关键词以外的其它词和各种非话音(包括呼吸、咳嗽声，音乐声，背景噪声等)。关键词识别是语音识别的一个分支，它与连续语音识别(CSR，Continuous Speech Recognition)的不同之处是：连续语音识别要求对话语中的所有话音内容都作出识别，而关键词识别则只要求识别出话语中所包含的关键词的内容即可，与连续语音识别相比，关键词识别(以下简称KWR)的要求更为灵活，它的应用也相当广泛：在语音控制系统中，关键词识别可以用于检测语音流中是否存在事先给定的命令词；在语音文档内容查询中，关键词识别可以用于检测语音文档是否含有查询的关键词。随着互联网和多媒体技术的发展，Internet每天都涌现海量音视频文件，如何对含有语音文档进行组织和检索成为信息处理领域新的研究热点，关键词检测技术正受到越来越多的重视。

1.1 关键词识别的应用背景

现代科学技术史告诉我们，任何技术产生的背后一定有某些需要的推动，关键词识别技术也不例外。 1.1.1 关键词识别技术的产生

如何在拨盘式电话线路上应用语音识别系统，这曾经是八十年代语音识别领域非常感兴趣的一个问题。经过数年的研究，语音识别技术已经从识别小词汇量、孤立发音的识别系统发展到中等词汇量、连续语音的识别系统。其中美国AT&T的BELL实验室设计了一个在电话线路上应用的智能转接系统，他们用五个特定的单词代表五种不同的电话，在假定待识别的话语中只含有关键词语音和背景噪声的条件下，该系统的识别率可以达至99%。

于是在California的Hayward，AT&T的BELL实验室进行了一个大规模的非特定人孤立词语音识别实验．在电话中用提示语音告诉用户用孤立发音的方式说出这五个单词中的一个，但是实验结果与他们设想的相去甚远。他们在追查原因的时候发现，在实际的情况中，只有82％的用户说了五个单词中的一个，其中只有不到65％的用户能够按照提示使用孤立发音，大约20％的发音夹杂有词表外发音和诸如气流

基于Filler模型的语音关键词识别

声等非语音发音。

他们起初的识别算法没有考虑这样的问题，因此AT&T的BELL实验室将原先的对输入话语的假定“背景噪声+关键词+背景噪声”改为假定用户所说的一句话是“背景信号(噪音，音乐声等)+其它语音+一个关键词+其它语音+背景信号”来进行识别，采用新的识别算法即KWR算法，KWR识别系统的使用，使话语中的关键词识别率成功的达到了87.1%。

早先的关键词系统大多采用基于Filler或OLG模型进行关键词检测，这种系统要求事先设定好关键词表，然后利用关键词和垃圾模型并联的识别网络进行关键词搜索，一旦关键词发生变化必须重新识别。在该系统中，所有的系统优化都是针对给定的关键词和垃圾模型的，不适合任务域移植，关键词检出效果高度依赖词表，当词表较大时或关键词之间读音较相似时，关键词之间相互竞争使得系统检出效果非常差。所以，这种基于垃圾模型的关键词检测系统主要面向小词表、限定领域的对话系统和语音命令检测任务。 1.1.2 关键词识别技术的应用

KWR有非常广阔的应用前景。像上文提到的在电话接听中的应用就是一个方面。可以设想在电话的一些智能业务(比如电话卡和智能查询服务)中，用语音代替电话按键输入将会让用户的使用更加方便快捷；KWR还可以用于自然发音方式的语音录入，用户在使用语音录入的过程中，总会不经意的夹杂一些词汇表以外的词和非话音(如鼻音，咂嘴的声音等)，在这种情况下，系统可以把词汇表内的词作为关键词，把其它的词和非话语作为非关键词加以拒绝，以提高系统的实用性；还有按内容检索语音数据也是关键词识别又一重要应用。随着计算机硬件和多媒体技术飞速发展，信息的存储将采取越来越自然的方式，比如以声音和图象的形式存储，但所付出的代价是巨大的存储量和缓慢的检索速度。在硬件成本日益降低的前提下，存储量问题很容易得到解决，但人工检索却是一个令人头痛的问题。关键词识别技术可以解决这一问题。如果关键词的输入再由检索者以语音命令的形式给出，那么语音信息的按内容检索就能够以完全自然的方式进行。

KWR的应用远不止这些。几乎可以说，在所有语音识别的应用中都会用到关键词识别中的一些技术。

图1-1给出了关键词识别在当今社会中的广泛应用[3]：

基于Filler模型的语音关键词识别

图1-1 关键词技术的应用领域

1．命令控制：用户可以通过关键词检测系统控制智能家电的开启，通过语音菜单控制计算机程序的动作。对于在通信业高速发展的今天，要想使手机体积进一步微型化，只有通过语音来实现按键的功能。

2．语音监听：信息安全成为各国目前关注的技术项目，911事件引发了监听系统的开发热潮，关键词检测可以从被监听话语中侦测出是否存在敏感的信息，从而给安全部门提供参考。纯粹人工的监听要耗费大量的人力和时间：而且由于人的注意力不可能长时间高度集中，有时也会把极其重要的内容忽略掉。但关键词识别器可以代替人工二十四小时不间断的实时监听。不但可以节省人力，而且可以做到真正密切监控。

3．语音拨号：语音拨号和自动电话转接系统是关键词检测的电话领域的应用热点。在移动电话上，用户可以通过关键词识别检测出要呼叫的用户名称，通过语音直接进行拨号，而不必费力地在电话号码本上查找。

4．对话系统：对话系统是语音识别技术的最有吸引力的课题，通过对话系统可以直接进行基于人机接口的信息咨询。在目前的技术水平上，研究人员倾向于利用关键词检测技术或基于槽语法的关键词识别技术实现人机对话或信息咨询系统。

5．话题跟踪：在对话系统中经常需要检测交互双方的话题领域以及有没有切换话题。可以把话题的关键内容作为关键词，利用关键词识别检测语音的话题，从而为使用不同的领域语法规则或语言模型进行识别做借鉴。

6．数据查询：随着互联网的发展和普及，网络存在大量的音频文档资源。关键词识别可以实现基于多媒体音频文档的内容检测，把使用者从乏味的长时间语音文件回放和人工检索工作中解放出来。

7．文档分类：在电视台等文化传播部门，有许多的多媒体录音资料，通过关键词可以检测文档中关键词的出现频次，从而把语音文档进行归类和整理。 1.1.3 关键词识别的国内外发展动态

关键词识别技术的研究[3]可以追溯到20世纪70年代，真正开始于80年代，在90年代得到快速发展，90年代以后，涌现出了大批关键词检测系统。1973年，Bridle

基于Filler模型的语音关键词识别

揭开了关键词识别研究的序幕，但那时只是称“给定词”的识别。直到Christiansen等人才正式确定了“关键词”的叫法，他利用信号的LPC(线性预测编码)表示对连续语音中的关键词进行检测和定位，没有使用语法或词法信息，对小词汇量词表取得了很好的效果。但真正的关键词识别研究应该说是在80年代。Myers等人利用基于DTW的局部最小算法对关键词识别和连接词识别进行了研究，但没有系统的实现。美国ITT …… 此处隐藏：962字，全部文档内容请下载后查看。喜欢就下载吧 ……

基于filler模型的语音关键词识别(2).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

本文链接：https://www.jiaowen.net/wendang/434572.html（转载请注明文章来源）

上一篇：优质稻生产基地建设项目可行性研究报告书
下一篇：选煤厂安全管理汇报