教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 精品文档 > 法律文档 >

基于filler模型的语音关键词识别(6)

来源:网络收集 时间:2026-02-07
导读: 基于Filler模型的语音关键词识别 竞争模型空间 目标模型空间 全体模型空间 图3-2基于近邻空间的语音确认思想示意图 如果目标模型所在的近邻空间为A1,其竞争模型空间为A2,可以通过目标模型的竞争模型来进行语音确

基于Filler模型的语音关键词识别

竞争模型空间 目标模型空间 全体模型空间

图3-2基于近邻空间的语音确认思想示意图

如果目标模型所在的近邻空间为A1,其竞争模型空间为A2,可以通过目标模型的竞争模型来进行语音确认,从而降低运算量。此时,假设检验问题转换为:

H0:原假设,O真实来自A1;

H1:备择假设,O真实来自目标模型的竞争模型空间A2-A1;

在Jiang[6]的论文中,提出以HMM模型均值向量为圆心,给不同维的语音特征给予不同近邻空间的语音确认方法,该方法在噪声环境下获得较好确认效果。利用模型集来构造反词模型,和训练明确反词HMM模型的方法相比,移植性好,而且省去了训练反词的繁琐步骤。本章我们将主要针对这种方法进行研究,并提出一种新的基于竞争模型的加权似然比融合的语音确认方法。

3.2 基于竞争模型的加权似然比融合的语音确认方法

分析上一节利用竞争模型集构造反词模型的方法,不难发现,所采用的方法 都比较简单。

在正确参考答案为“ci”的情况下,分析下面两种情况: ●目标模型为“ci”,竞争集中最大的竞争模型为“si”;Vo(O)=C。 ●目标模型为“ci”,竞争集中最大的竞争模型为“ca”;Vo(O)=C。

两者似然得分相同,但显然第一种情况比第二种情况更加可靠。这是因为我们的感觉中“si”与“ci”发音比较接近,两者发音更容易混淆。这启发我们,在利用似然比方法时,除了考虑似然比分数外,还要考虑竞争模型的区别,即:各个竞争模型对于区分目标模型的作用是不同的。出于这种考虑,我们提出基于竞争模型的加权似然比融合的语音确认方法。

21

基于Filler模型的语音关键词识别

对竞争模型加权来构造反词模型的方式有多种,一种加权方式是采用概率算术平均,即:

(3-8)

其中为目标模型的竞争模型。权方式为概率加权平均,即:

(3-9)

比较这两种形式,对于概率算术平均方式,如果目标模型与其所有的竞争模型无关,或者

的值都非常小,会有

。由于通常在log域计算反词输

为调节权值,满足

另一种加

出似然分,不允许出现代入似然比公式,有:

。所以,本文采用概率几何平均加权方式。将式(2-9)

其中:

(3-10)

这样就把似然比问题转化为以下的参数优化问题:

(3-11)

其中

量w和阈值的最优化求解问题。

从上式可以看出,以前提到的很多计算似然比的方法都是所提方法的特例,当

22

,为待优化的常数。这样,问题就转换为加权向

基于Filler模型的语音关键词识别

竞争集最大值项的权值为1,其余项的权值为+∞时,上式相当于(3-5)式的最大竞争模型法。当取前N-Best竞争项为1,其余项为+∞时,上式相当于(3-6)式的N-Best竞争项法。

3.2.1 基于MVE的参数优化

加权向量和阈值可以通过许多方法来优化,如线性分类器,神经网络、支持向量机等训练算法。由于在这里我们碰到的问题是语音确认问题,我们引入最小确认错误(MVE)算法进行计算。MVE是一种有监督的区分性训练算法,是MCE算法在语音确认领域的推广,在说话人确认和语音确认领域得到广泛应用,常用于HMM模型或反词模型的参数优化。MVE将语音确认错误巧妙地嵌入进目标函数,将参数求解转换为使误警率和误接收率最小的参数估计问题。在实际使用时,MVE算法通常与梯度下降(GDP)算法结合在一块使用,通过GDP求取使目标函数最优的参数值,从而达到最小确认错误的目的。

假定语音O的识别结果为子词u,

,定义错误确认的测度为: (3-12)

其中,

为标示函数,是识别结果与实际参考答案比较的真实判别。

(3-13)

结合(3-12)和(3-13)式可以知道,在正确分类时:或者

,或者

以降低系统的确认错误。

由于此时有

不是一个连续函数,无法用GDP优化算法对其进行迭代优

(3-14)

其中是大于0的可调参数,用于控制确认损失函数

的单调增函数。

为连续函数,可以用GPD算法来进行优化,使得

在训练集上,定义期望确认损失函数为:

23

且可

。所以,降低

且,此时有且

,此时有

;在错误分类时:

化,通常引入S函数将其转换为连续可微函数

的平滑程度。显然

的值主要取决于错误分类的数据,由于

的经验期望值最小。

基于Filler模型的语音关键词识别

(3-15)

在GPD算法下,通过以下迭代公式求得:

(3-16)

其中为学习率,n为迭代次数。在满足下面两个条件下算法收敛:

,同时

由于要求导结果如下:

,我们令

(3-17)

使其转换为对的无约束优化。参数求

(3-18)

同理,可以得:

(3-19)

如果用全部模型来计算似然比显然计算量有些过大,可以考虑只选择距离目标模型较近的那些竞争模型。竞争模型可以通过专家先验知识和数据驱动的方式获得,这里我们利用数据驱动的方式获得竞争模型,采用KL(Kullback Leibler)测度来计算声学模型之间的距离,KL测度也是说话人识别中经常采用的一种模型测度。

(3-20)

上式中,和,代表各自模型的训练样本个数,本,

表示模型产生样本

自反性:显然有对称性:显然有

24

是训练模型的第K个样

的概率,该距离度量具有以下性质:

非负性:如果声学模型有足够精度,对于绝大多数训练样本应该满足条件

基于Filler模型的语音关键词识别

3.2.2 实验设定与结果

我们采用扩展的声韵母集合进行语音确认,包括27个声母、38个韵母,每个模型3个状态。每个状态含有8个高斯混合分量。语音采用8KHz/16位采样,帧长25ms,帧移10ms。语音特征采用39维MFCC特征,包括对数能量和12维MFCC参数静态特征以及其一阶、二阶差分特征。

由于声母和韵母之间不易混淆。所以,对于声母目标模型,可以选用除去目标模型的全部声母集模型作为目标模型的竞争集(CS)。同样,对于韵母,采用除目标模型外的全体韵母作为目标模型的竞争集。为了进一步降低运算量,我们在以上竞争集的基础上进一步缩小范围,对每个目标模型,在863语音库训练集上通过KL测度选择15个与其最接近的模型,按照KL距离由小到大排序,构成式(3-10)的15维似然比特征向量,称为CS(15)。

对于竞争集,我们通过MVE训练算法对每个子词求取加权向量和阀值。下面是具体MVE训练过程:

(1)对所有的子词,初始化合成权重系数及阈值,令最易混淆项的似然比加权值

,其余项的似然比加权值为0。阀值

;

(2)用音素解码器得到输出结果,并与标准答 …… 此处隐藏:1378字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于filler模型的语音关键词识别(6).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/wendang/434572.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)