大词汇连续汉语语音的MLP声学特征的研究论文

时间:2021-10-03 14:09:19 论文范文 我要投稿

大词汇连续汉语语音的MLP声学特征的研究论文

  摘要:

大词汇连续汉语语音的MLP声学特征的研究论文

  短时声学特征参数如MFCC,PLP作为输入向量的高斯混合模型(GMM)的隐马尔可夫模型(HMM)的经典模型在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果。但针对短时声学特征区分性差的特点,本文提出采用神经网络多层感知器(MLP)产生的两种类型差异特征HATs与TANDEM代替短时特征,分别训练GMM参数模型。实验结果表明,差异特征的GMHMM的LVCSR系统优于传统的短时特征的系统;为了更进一步提高系统识别率,该文又将两种类型差异特征HATs与TANDEM进行复合,构成MLPs特征流重建GMHMM,系统的错字率(CER)有2%——3.8%的明显改善。

  关键词:多层感知器;差异特征;隐马尔可夫;高斯混合模型

  对语音信号特征参数的研究是建立良好的语音识别系统的基础与关键。在过去的研究中,语音识别系统的特征提取成分主要包括频谱包络预测,特别是经过某些简单变化后的特征,目前前端大部分是基于短时轨迹(约10ms)信号分析的美尔倒谱(MFC)或是感知线性预测(PLP)。但这些传统的短时特征参数存在着对信号变化过于敏感,不能反映连续帧之间的相关特性,区分性差等方面的不足。近年来,国外很多语音研究机构在语音信号的特征提取、声学建模方面引入了神经网络ANN,其中由Berkeley国际计算机学院(ICSI)提出用基于MLPs的特征取代传统特征,系统的识别率得到了明显改善[1-3]。基于MLPs特征的差异性的优势和GMM/HMM模型的成熟性,本文提出将变换后的MLPs差异特征后验概率看作是GMHMM的输入向量,重新构建GMHMM模型。实验结果表明MLPs特征具有更好的特性,LVCSR的识别率得到了明显的改善。

  1、基于MLP的差异声学特征。

  为弥补了来自言语感知和倒谱的短时分析的不足,获取时序相关联的多帧语音信息(即音素信息),文本引入了神经网络ANN的MLP,以提取基于非短时轨迹的非传统特征。本文采用的MLP特征为HATs和TANDEM两种。

  (1)长时HATs特征参数。

  HATs特征基于人对不同频带的感觉不同,HATs特征提取将由两级MLP实现[4-5],第一级由15个MLP即将关键频带数分为15个,第二级由1个MLP构成。HATs的基本实现步骤:

  ①依关键频带,分别计算每个短时窗(10ms)对应的关键频带的`能量的log值(即为短时频段能量参数)。

  ②分别将各频带短时能量参数串联为0.5s的长时频带能量参数作为HATs第一级的输入参数。串联方法为将前25帧、后25帧和当前帧同频段的能量参数相串联(25+25+1=51),作为该关键频带的MLP的51个输入单元。即第一级的每个MLP都具有51个输入端。每一个MLP都是为了证实当前帧为某个音素的后验概率P(Pj/Xt)。因此,在语音识别系统中,每一个MLP的输出单元代表了一个音素。由于这些MLP为差别性音素提供了音素后验,所产生的特征为语音识别提供了音素差别性能力。

  ③采用softmax函数将每一个MLP的概率输出汇总为1,实现归一化。

  xij是来自隐藏单元i的输入;wij是隐藏单元i与输出单元j的权值;zj是作为音素后验的MLP的输出。隐藏单元应用sigmoid函数限止其输出值在0-1之间。

  因为每个关键频带对不同的音素反映不同,所以每个第一级的输出都提供了音素后验概率。第二级的目的在于接合所有音素后验概率,对当前帧所属音素的认定作最后的决策。从不同的实验表明,针对于LVCSR最成功的做法是采用第一级隐藏层的结果作为第二级的输入。因为第一级softmax使所有的输出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活hidden activation TRAPS (HATS)。第二级的输入单元的数目为15×h,h是第一级每个MLP的隐藏单元数目,本文采用60个隐藏单元。最后,从第二级MLP计算出音素后验概率。由于系统采用71个音素[10],所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图 1所示。

  (2)TANDEM特征。

  本文采用的另一个MLP特征是中期特征TANDEM[6]。其MLP的网络结构如图2所示。

  由于本文采用MFCC作为常规HMM的输入特征,为了最大化收集新信息,该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成,抽取相邻9帧的PLP和基音,以42×9(42维,9帧)为MLP的输入,15000个隐藏单元。隐藏单元依然用sigmoid函数,输出单元用后验softmax函数。最后MLP输出71个音素的后验概率。

  2、MLPs声学特征的混合。

  本文提出的声学特征的混合是基于MLP的长时HATs与中期TANDEM复合为MLPs特征流。

  HATs与TANDEM是采用两套MLP系统产生的,也即每一帧都有两个音素后验概率。在文献[7]中指出,将其两种后验概率进行复合后,其MLP的特征更有效。为此,本文采用以下步骤实现音素后验的复合[8]:

  (1)建立后验音素向量:采用Demspter-shafter[7]逆熵加权策略将两套音素后验概率合成音素后验向量[r1 r2…r71]。

  (2)用log计算音素后验向量:为了让音素后验向量与传统特征复合,采用log函数计算使之更像高斯分布;

  (3)用PCA实现降维和正交化:为了后期与其它特征复合,71维的音素后验向量需进行降维处理;因为高斯密度函数常认为是相互独立,对角协方差的,所以音素后验向量需要正交化,进行均值和方差的归一化。最终实现将两个71维的音素后验降为一个35维的MLPs。

  3、模型训练。

  本文的声学模型是以跨词三音子3状态左-右的HMM。基于状态共享的决策树总数为4500个上下文相关音素状态。系统采用3个级别的训练,第1级是声道长度的归一化(VTLN)的训练。为了补偿语者差异性,在第2级中采用了受限的最大似然线性回归的说话人自适应的训练(SAT/CMLLR),建立语者独立模型。最后是建立语言模型重估(LM rescoring)模型[9]。

  4、语料库。

  本文系统使用了230小时的广播新闻和广播对话语音数据进行训练。230小时的语料包括了30小时的HUB4,由GALE发布的100小时广播新闻和100小时广播谈话。识别中使用了2.2小时的eval06和2.5小时的dev07两组语料。详细语料信息见表 1。

  5、实验结果及结论。

  本文应用德国亚琛工业大学语音研究所开发的LVCSR汉语语音识别系统[9]进行实验。采用230小时语料库为71个汉语音素基元模型分别建立基于MFCC的HMGMM模型及MLPs/ pitch混合声学特征的HMGMM模型,在识别阶段均使用eval06与dev07的语料进行识别,其识别结果用连续识别的字错误率(Character Error Rate CER%)进行评价。其结果如表 2所示。

  采用MLP的特征比传统的短时特征都有良好的识别特性,TANDEM特征系统的CER约有0.5%的改善,HATs的特性比TANDEM更好,系统的CER减少约1%~2.5%,采用MLPs复合声学特征,系统的识别率有了最大的提高,CER得到了2%-3.8%的改善。本文复合的声学特征为中时(9帧)和长时(51帧)的信息,能否将短时特征再与其复合以提高系统识别率,还待进一步研究。

  参考文献:

  [1] ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system[J]. in Proc. DARPA RT Workshop 2004.

  [2] Jing Zheng. Combining Discriminative Feature, Transform, and Model Training for Large Vocabulary Speech Recognition[C].inProc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, Hawaii, 2007(4):633-636.

  [3] 阎平凡,张长水,“人工神经网络与模拟进化计算”[M]. 清华大学出版社 2005.

  [4] wang M Y.Building a highly accurate mandarin speech recognizer[J].in Proc. IEEE Automatic Speech Recognition and Understanding Workshop, Kyoto, Japan, Dec., 2007:490-495.

  [5] Chen B. Learning long-term temporal features in LVCSR using neural networks[J].in Proc. Int. Conf. on Spoken Language Processing, Jeju Island, Korea, Oct., 2004.

  [6] Hermansky H, Ellis D P W, Sharma S. Tandem connectionist feature stream extraction for conventional hmm systems[C]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Istanbul, Turkey, 2000:1635-1638.

  [7] Valente F, Hermansky H. Combination of acoustic classifiers based on dempster-shafer theory of evidence[J]. in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, Honolulu, HI, USA, Apr.,2007.

  [8] Morgan N, Chen B Y, Zhu Q, et al. Trapping Conversational Speech: Extending TRAP/Tandem approaches to conversational telephone speech recognition[J].in Proceedings of IEEE ICASSP, Montreal, May 2004.

  [9] Plahl C, HoffmEister B, Hwang M, et al. Recent Improvements of the RWTH GALE Mandarin LVCSR System[J].In Interspeech, Brisbane, Australia, September 2008:2426-2429.

  [10] 吕丹桔, Hwang M, HoffmEIster B. 汉语连续语音识别之音素声学模型的改进[J].计算机仿真,2010(5).

【大词汇连续汉语语音的MLP声学特征的研究论文】相关文章:

汉语语音研究的几个问题07-11

试论类推机制在汉语语音史研究中的作用08-16

汉语语音对英语语音学习的影响探析08-27

略谈现代汉语词汇研究07-08

1998-2003年汉语音韵研究综述(上篇)07-05

语音词汇教学教案03-11

普通话轻声的声学特征与读法11-29

常德方言轻音音节的声学特征08-16

当代汉语词汇研究的新成果-读张小平《当代汉语词汇发展变化研究》07-28