基于filler模型的语音关键词识别(6)
基于Filler模型的语音关键词识别
竞争模型空间 目标模型空间 全体模型空间
图3-2基于近邻空间的语音确认思想示意图
如果目标模型所在的近邻空间为A1,其竞争模型空间为A2,可以通过目标模型的竞争模型来进行语音确认,从而降低运算量。此时,假设检验问题转换为:
H0:原假设,O真实来自A1;
H1:备择假设,O真实来自目标模型的竞争模型空间A2-A1;
在Jiang[6]的论文中,提出以HMM模型均值向量为圆心,给不同维的语音特征给予不同近邻空间的语音确认方法,该方法在噪声环境下获得较好确认效果。利用模型集来构造反词模型,和训练明确反词HMM模型的方法相比,移植性好,而且省去了训练反词的繁琐步骤。本章我们将主要针对这种方法进行研究,并提出一种新的基于竞争模型的加权似然比融合的语音确认方法。
3.2 基于竞争模型的加权似然比融合的语音确认方法
分析上一节利用竞争模型集构造反词模型的方法,不难发现,所采用的方法 都比较简单。
在正确参考答案为“ci”的情况下,分析下面两种情况: ●目标模型为“ci”,竞争集中最大的竞争模型为“si”;Vo(O)=C。 ●目标模型为“ci”,竞争集中最大的竞争模型为“ca”;Vo(O)=C。
两者似然得分相同,但显然第一种情况比第二种情况更加可靠。这是因为我们的感觉中“si”与“ci”发音比较接近,两者发音更容易混淆。这启发我们,在利用似然比方法时,除了考虑似然比分数外,还要考虑竞争模型的区别,即:各个竞争模型对于区分目标模型的作用是不同的。出于这种考虑,我们提出基于竞争模型的加权似然比融合的语音确认方法。
21
基于Filler模型的语音关键词识别
对竞争模型加权来构造反词模型的方式有多种,一种加权方式是采用概率算术平均,即:
(3-8)
其中为目标模型的竞争模型。权方式为概率加权平均,即:
(3-9)
比较这两种形式,对于概率算术平均方式,如果目标模型与其所有的竞争模型无关,或者
的值都非常小,会有
。由于通常在log域计算反词输
为调节权值,满足
另一种加
出似然分,不允许出现代入似然比公式,有:
。所以,本文采用概率几何平均加权方式。将式(2-9)
其中:
(3-10)
这样就把似然比问题转化为以下的参数优化问题:
(3-11)
其中
量w和阈值的最优化求解问题。
从上式可以看出,以前提到的很多计算似然比的方法都是所提方法的特例,当
22
,为待优化的常数。这样,问题就转换为加权向
基于Filler模型的语音关键词识别
竞争集最大值项的权值为1,其余项的权值为+∞时,上式相当于(3-5)式的最大竞争模型法。当取前N-Best竞争项为1,其余项为+∞时,上式相当于(3-6)式的N-Best竞争项法。
3.2.1 基于MVE的参数优化
加权向量和阈值可以通过许多方法来优化,如线性分类器,神经网络、支持向量机等训练算法。由于在这里我们碰到的问题是语音确认问题,我们引入最小确认错误(MVE)算法进行计算。MVE是一种有监督的区分性训练算法,是MCE算法在语音确认领域的推广,在说话人确认和语音确认领域得到广泛应用,常用于HMM模型或反词模型的参数优化。MVE将语音确认错误巧妙地嵌入进目标函数,将参数求解转换为使误警率和误接收率最小的参数估计问题。在实际使用时,MVE算法通常与梯度下降(GDP)算法结合在一块使用,通过GDP求取使目标函数最优的参数值,从而达到最小确认错误的目的。
假定语音O的识别结果为子词u,
,定义错误确认的测度为: (3-12)
其中,
为标示函数,是识别结果与实际参考答案比较的真实判别。
(3-13)
结合(3-12)和(3-13)式可以知道,在正确分类时:或者
,或者
以降低系统的确认错误。
由于此时有
不是一个连续函数,无法用GDP优化算法对其进行迭代优
:
(3-14)
其中是大于0的可调参数,用于控制确认损失函数
是
的单调增函数。
为连续函数,可以用GPD算法来进行优化,使得
在训练集上,定义期望确认损失函数为:
23
且
且可
。所以,降低
且,此时有且
,此时有
;在错误分类时:
化,通常引入S函数将其转换为连续可微函数
的平滑程度。显然
的值主要取决于错误分类的数据,由于
的经验期望值最小。
基于Filler模型的语音关键词识别
(3-15)
在GPD算法下,通过以下迭代公式求得:
(3-16)
其中为学习率,n为迭代次数。在满足下面两个条件下算法收敛:
,同时
由于要求导结果如下:
,我们令
(3-17)
使其转换为对的无约束优化。参数求
(3-18)
同理,可以得:
(3-19)
如果用全部模型来计算似然比显然计算量有些过大,可以考虑只选择距离目标模型较近的那些竞争模型。竞争模型可以通过专家先验知识和数据驱动的方式获得,这里我们利用数据驱动的方式获得竞争模型,采用KL(Kullback Leibler)测度来计算声学模型之间的距离,KL测度也是说话人识别中经常采用的一种模型测度。
(3-20)
上式中,和,代表各自模型的训练样本个数,本,
表示模型产生样本
有
自反性:显然有对称性:显然有
;
。
24
是训练模型的第K个样
的概率,该距离度量具有以下性质:
;
非负性:如果声学模型有足够精度,对于绝大多数训练样本应该满足条件
基于Filler模型的语音关键词识别
3.2.2 实验设定与结果
我们采用扩展的声韵母集合进行语音确认,包括27个声母、38个韵母,每个模型3个状态。每个状态含有8个高斯混合分量。语音采用8KHz/16位采样,帧长25ms,帧移10ms。语音特征采用39维MFCC特征,包括对数能量和12维MFCC参数静态特征以及其一阶、二阶差分特征。
由于声母和韵母之间不易混淆。所以,对于声母目标模型,可以选用除去目标模型的全部声母集模型作为目标模型的竞争集(CS)。同样,对于韵母,采用除目标模型外的全体韵母作为目标模型的竞争集。为了进一步降低运算量,我们在以上竞争集的基础上进一步缩小范围,对每个目标模型,在863语音库训练集上通过KL测度选择15个与其最接近的模型,按照KL距离由小到大排序,构成式(3-10)的15维似然比特征向量,称为CS(15)。
对于竞争集,我们通过MVE训练算法对每个子词求取加权向量和阀值。下面是具体MVE训练过程:
(1)对所有的子词,初始化合成权重系数及阈值,令最易混淆项的似然比加权值
,其余项的似然比加权值为0。阀值
;
(2)用音素解码器得到输出结果,并与标准答 …… 此处隐藏:1378字,全部文档内容请下载后查看。喜欢就下载吧 ……
相关推荐:
- [法律文档]苏教版七年级语文下册第五单元教学设计
- [法律文档]向市委巡视组进点汇报材料
- [法律文档]绵阳市2018年高三物理上学期第二次月考
- [法律文档]浅析如何解决当代中国“新三座大山”的
- [法律文档]延安北过境线大桥工程防洪评价报告 -
- [法律文档]激活生成元素让数学课堂充满生机
- [法律文档]2014年春学期九年级5月教学质量检测语
- [法律文档]放射科标准及各项计1
- [法律文档]2012年广州化学中考试题和答案(原版)
- [法律文档]地球物理勘查规范
- [法律文档]《12系列建筑标准设计图集》目录
- [法律文档]2018年宁波市专技人员继续教育公需课-
- [法律文档]工会委员会工作职责
- [法律文档]2014新版外研社九年级英语上册课文(完
- [法律文档]《阅微草堂笔记》部分篇目赏析
- [法律文档]尔雅军事理论2018课后答案(南开版)
- [法律文档]储竣-13827 黑娃山沟大开挖穿越说明书
- [法律文档]《产品设计》教学大纲及课程简介
- [法律文档]电动吊篮专项施工方案 - 图文
- [法律文档]实木地板和复合地板的比较
- 探析如何提高电力系统中PLC的可靠性
- 用Excel函数快速实现体能测试成绩统计
- 教师招聘考试重点分析:班主任工作常识
- 高三历史选修一《历史上重大改革回眸》
- 2013年中山市部分职位(工种)人力资源视
- 2015年中国水溶性蛋白市场年度调研报告
- 原地踏步走与立定教学设计
- 何家弘法律英语课件_第十二课
- 海信冰箱经销商大会——齐俊强副总经理
- 犯罪心理学讲座
- 初中英语作文病句和错句修改范例
- 虚拟化群集部署计划及操作流程
- 焊接板式塔顶冷凝器设计
- 浅析语文教学中
- 结构力学——6位移法
- 天正建筑CAD制图技巧
- 中华人民共和国财政部令第57号——注册
- 赢在企业文化展厅设计的起跑线上
- 2013版物理一轮精品复习学案:实验6
- 直隶总督署简介




