A Keyword Spotting system with POSTprocessing of Semantics by syllable_Based Blind Clustering
Luoxuefeng
Department of Computer Science and
2 Clustering Feature Abstraction and Clarification Principle:
2.1 Fundamental Principle
由于语音模板的长度不定性,模板匹配不能采取直接的Euclid距离等计算方案,现在比较流行的有DTW等算法。本文所基于的特征距离插值原理,可以通过平滑能量来统一帧间差异,进而以同一音节在多个帧长的情况下的特征空间距离作为SVM分类器的依据,进行了改进的聚类算法研究。
对于得到的语音模板,设R为标准模式,X为测试模式,两者均为V维特征矢量的时间序列。即:
R:R(t) = ( R1(t), R2 (t), …, Rv (t) )T; (0≤t≤Tr)
X:X(t) = ( X1(t), X2 (t), …, Xv (t) )T; (0≤t≤Tx)
DTW的基本概念是通过寻找一个时间伸缩函数tr(tx),该函数将测试模式X的时间轴tx非线性地映射到标准模式R的时间轴tr上,并使X与R的相对距离为最小。由此可见,对同一字(词)的语音而言,在理想情况下,即除时间轴的变动因素之外,如果没有其它什么变动因素的话,则X与R的相对距离应为零。即:
另一方面,从数学的角度来看,X(tx) (0≤tx≤Tx) 和R(tr)(0≤tr≤Tr)也可以看作是对应在P维特征空间中的两条轨迹。显然,当X(tx)和R(tr)满足式(3.9)时,这两条轨迹是完全重叠的。
设sx = sx(tx)表示沿着X(tx)的轨迹从始点到达tx时的轨迹长,dsx表示这条轨迹的微小线段,则有:
<!--[if !vml]--><!--[endif]--> (2.2)
若dsx/dt>0,则可求得式(3.10)的逆函数,即:
此时,若考虑沿轨迹提取新的特征点X’(sx)的话,则可根据式(3.11)将X’(sx)定义为:
<!--[if !vml]--><!--[endif]--> (2.4)
同样,可定义R’(sr)为:
根据式(2.2)、(2.3)、(2.5),则有:
根据轨迹的不变性,sx = sr (= s),所以,可将式(2.6)改写为:
<!--[if !vml]--><!--[endif]--> (2.7)
tr |
tx |
Tr |
Tx |
tr= tr(tx) Warping function |
X(tx) |
R(tr) |
0 |
图2-1. Time Warp示意图 图2-2. 基于轨迹的时间规整化示意图
式(2.7)即表示,在理想的情况下,对同一字(词)音的两个特征矢量X(tx)和R(tr),按相同的轨迹长s沿其各自的轨迹所提取出的新的特征矢量X’(S)和R’(S)具有对时间轴伸缩的不变性,这也就是基于特征空间轨迹对语音模式进行时间轴规整的基本原理。
因此,如图2-7所示,为了获得不受时间轴伸缩影响的语音特征矢量,可将语音轨迹总长分成n-1等分,然后沿该轨迹重新取样,重新取样后的n个的特征点就成为时间规整化后的特征矢量。由于经时间规整后的特征矢量可采用线性匹配,故可大幅度地减少运算量。而且从这个原理可以看出,倘若我们以改变帧长的方式,在多个维度上插值原模板,由于特征矢量X’(S)和R’(S)具有对时间轴伸缩的不变性,我们可以刻划的就是多种语音拉伸条件下的语音模板,这可以代表语音的多维性质,以之作为模板分类的依据是合适的。
参考文献:
[1] Vapnik V. The nature of statiticial learning theory [M]. NewYork:Springer Verlag,1995