基于filler模型的语音关键词识别(3)
基于Filler模型的语音关键词识别
本论文解决关键词检测任务的系统框架为基于垃圾模型的方法。这种方法采用关键词和垃圾模型共同组成并行搜索网络,垃圾模型可以拟合自然界的所有发音现象,吸收所有的非关键词发音来检测出关键词,垃圾模型又称Sink模型或Filler模型,一般选用一些发音单元,如音素、音节或半音节。通过对关键词网络加上合适的奖赏或者给垃圾模型给予合适的惩罚,使得当语音中出现关键词时,关键词得分超过垃圾模组得分,从而得到检出结果。然后利用声学置信度对这些检出结果进行筛选,得到最终所需的关键词。该模型的方法的好处是实时性好,在命令检测、对话语音中得到很好应用,但不适合音频文档内容检测。
1.3 系统性能指标
关键词检测系统理论上来说存在两类错误[5]:类型I错误:错误拒绝(False Reject,FR):系统没有检测到语音中应该出现的关键词;类型Ⅱ错误:错误接受(False Alarm,FA):系统检测到的关键词在语音中没有出现,是假冒的关键词。显然,漏报减少就会导致虚警增加,反之亦然。在关键词检测系统中,一般都是尽可能多地检出关键词候选,然后通过置信度打分进行据识分析,高于置信度门限的候选接受,低于门限的拒绝。因此关键词检测系统的性能除了取决于检出模块外,也严重依赖置信度的评估方法。系统往往调整置信度门限,使关键词检测系统的两类错误之间之问有一个折衷,这个门限称为系统的工作点。
在关键词系统中,定义衡量类型I类错误的指标为拒识率,类型Ⅱ错误的指标为误警率。
(1-1)
(1-2)
其中,待检关键词总数是指给定的关键词表中的关键词总数。C是一个常数, 其作用是使误警率和拒识率处于同一尺度,本文评测规定C=1。
可以使用检出率来评价关键词的检测性能:
(1-3)
6
基于Filler模型的语音关键词识别
在关键词检测系统中,如果从低到高调整置信度判决门限,就可以得到一条误警率—拒识率变化曲线图,称之为检测错误折中曲线(Detection Error Tradeoff,DET),如下图所1-3所示。
●理论等错误率
图 1-3 DET曲线图
DET曲线反映拒识率随着误警率变化的趋势,在置信度门限取某特定值时,可以得到误警率=拒识率,该点称为等错误率(EER)点。DET曲线反映系统的综合性能,DET下方所围的面积越小越好,EER反映系统工作点的情况,EER越小说明系统工作点性能越好。一般情况下,系统的工作点是随需求而定的,是在误警率和拒识率的一个折中,实际应用时应根据DET曲线性能,结合实际需求选择合适的置信度门限。由于误警率和拒识率与置信度门限有关,因此,DET曲线除了可以度量检测系统的性能,也可用来比较置信度计算方法的优劣。
召回率和查准率是信息检索的重要评估方法,也可以用来评估关键词系统的 检出性能,对整个关键词检出结果集的质量进行量化评价。召回率(Recall):又 称查全率,对某一个查询项,检测出的正确关键词个数与参考关键词总数的比值。 查准率(Precision):对某一个查询项,检出的正确关键词个数占检出的关键词总数的比值。对关键词检出结果按照置信度得分由高到低排序,通过11点标准查 全率下的查准率曲线来观察系统的性能,如图1-4所示。这11点对应查全率分别为(0%,10%,20%,…,100%)时的查准率,缺值部分取附近的结果进行插值平滑。平均查准率是这11个点的算术平均,而平均召回率对应曲线在平均查准率处的结果。
7
基于Filler模型的语音关键词识别
0.70.6Precision Rate0.50.40.30.20.1000.10.20.30.40.50.60.70.80.91Recall Rate 图1-4 召回率-准确率曲线图 1.4 关键词识别与连续语音识别的关系 首先,关键词识别的任务是在连续的话语中识别出给定的词,因而它首先是 一种连续语音识别;但它又不要求把整个的语音流全部识别出来,因此可以说关 键词识别是连续语音识别的一个分支。其次,对发音人的要求又不可能像对连续 语音识别发音人那么高,因此关键词识别又不同于连续语音识别。考虑如下五个 方面的差别,KWR与CSR有时又被当作两个不同的问题来处理: (1)模型的训练问题:CSR模型往往要经过已知的不同发音人(尤其是可以包 括使用者在内)的大量数据进行训练。KWR则不大可能让被识别对象对其模型进行大量的训练。
(2)词汇表问题:CSR要求每个待识别的词(或单元)必须是一个有限词表中的一个,它的词汇表是封闭式的;而KWR允许输入的语音包含关键词词表外的任何词,它的词表是开放式的。 (3)语法或词法问题:CSR要求输入语音中的词序列受限于一个有限状态语法网络,也就是说它要求输入严格符合它所假定的一组句式模型;而KWR则无此要求,它不需要输入符合某种句式模型。 (4)发音人的态度:对一个CSR系统,发音人能够意识到自己正在与机器进行交流,希望所说的话能够被机器正确识别,故而他们一般持合作的态度,也能够根据系统的提示重新发音;但在KWR系统中,说话人常常是毫无准备的,多数情况是8
基于Filler模型的语音关键词识别
处于自然会话的发音方式,也不太可能重复不太清楚的语句。
(5)环境:CSR系统由于用户的配合往往在比较安静的环境中使用,而KWR 则可能遇到噪音大的环境。
由于这些差异,CSR的错误率用百分之几衡量,而KWR的(误警和漏识)错误率,则要高出一个数量级,常常用百分之十几来衡量。
1.5 论文研究的内容
论文对关键词识别技术的若干问题进行了研究,论文的研究工作涉及领域是 基于垃圾模型的关键词检测技术。图1-5给出了作者的研究思路和方法。
基于垃圾模型的关键词检测技术主要应用于对话系统、命令控制和特定领域 信息咨询,系统要求实时性高、误警要少。作者对影响系统性能的因素做了分析, 设计了一个基于垃圾模型的关键词检测系统。为了增强系统的拒识能力,通过两 种方法来提高确认效果,从算法上对传统的似然比确认方法进行了改进,提出了 基于竞争模型的加权似然比融合语音确认方法。
关键词识别技术 基于垃圾模型的关键词检测技术 系统设计 确认性能不佳 基于竞争模型的加权似然比融合语音确认方法 联合多特征确认(似然比,驻留概率,OLG得分) 提高了系统语音确认效果 图1-5 论文的研究思路和研究内容
9
基于Filler模型的语音关键词识别
由于理解一句话,可以从多个层次、多个角度去理解,从这个角度出发我们选择了关键词驻留概率和OLG得分,以及似然比得分来提高系统置信特征,提高了系统的语音确认效果。
1.6 论文结构安排
本论文共分为四章。
第一章,绪论,主要介绍关键词识别系统的产生和现状及研究意义和内容,以及关键词识别与连续语音识别的联系。
第二章,基于垃圾模型的关键词检测模块的设计,首先介绍了基于垃圾模型的关键词检出原理和常用方法,然后对影响系统性能的因素做了分析。设计了一个基于垃圾模型的基线系统。
第三章,对垃圾模型中关键词确认方法进行了研究,提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计,引入了最小确认错误准则训练融合的权重系数。在置信预测特征选择方面,介绍了关键词动态垃圾得分与驻留概 …… 此处隐藏:1653字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [法律文档]苏教版七年级语文下册第五单元教学设计
- [法律文档]向市委巡视组进点汇报材料
- [法律文档]绵阳市2018年高三物理上学期第二次月考
- [法律文档]浅析如何解决当代中国“新三座大山”的
- [法律文档]延安北过境线大桥工程防洪评价报告 -
- [法律文档]激活生成元素让数学课堂充满生机
- [法律文档]2014年春学期九年级5月教学质量检测语
- [法律文档]放射科标准及各项计1
- [法律文档]2012年广州化学中考试题和答案(原版)
- [法律文档]地球物理勘查规范
- [法律文档]《12系列建筑标准设计图集》目录
- [法律文档]2018年宁波市专技人员继续教育公需课-
- [法律文档]工会委员会工作职责
- [法律文档]2014新版外研社九年级英语上册课文(完
- [法律文档]《阅微草堂笔记》部分篇目赏析
- [法律文档]尔雅军事理论2018课后答案(南开版)
- [法律文档]储竣-13827 黑娃山沟大开挖穿越说明书
- [法律文档]《产品设计》教学大纲及课程简介
- [法律文档]电动吊篮专项施工方案 - 图文
- [法律文档]实木地板和复合地板的比较
- 探析如何提高电力系统中PLC的可靠性
- 用Excel函数快速实现体能测试成绩统计
- 教师招聘考试重点分析:班主任工作常识
- 高三历史选修一《历史上重大改革回眸》
- 2013年中山市部分职位(工种)人力资源视
- 2015年中国水溶性蛋白市场年度调研报告
- 原地踏步走与立定教学设计
- 何家弘法律英语课件_第十二课
- 海信冰箱经销商大会——齐俊强副总经理
- 犯罪心理学讲座
- 初中英语作文病句和错句修改范例
- 虚拟化群集部署计划及操作流程
- 焊接板式塔顶冷凝器设计
- 浅析语文教学中
- 结构力学——6位移法
- 天正建筑CAD制图技巧
- 中华人民共和国财政部令第57号——注册
- 赢在企业文化展厅设计的起跑线上
- 2013版物理一轮精品复习学案:实验6
- 直隶总督署简介




