|
个人觉得,语音信号处理不仅处理方法和过程重要,采用什么样的评测方法和标准也是检验处理方案优劣的重要因素。以前看过一篇文章主要讲编码语音评测的方法的,从中受益不浅,现摘抄如下,全当关于“语音评测”的一个小教程吧。 欢迎大家多多补充自己知道的其他评测语音处理结果的方法。 抱歉由于本人水平有限,无法将公式完整的显示在帖子中,只好用边写边以附件贴图的方式显示,所以整篇文章显得有些支离破碎,望大家见谅! -------------------------------- 为了确定语音编码器的性能,需要对编码生成的语音进行清晰度和质量的测量。清晰度这个概念通常是指输出语音是否容易听清楚,质量这个概念则是指语音听起来有多自然。 尽管许多技术的应用能客观上评价语音编码器的性能,比如说,信噪比和谱失真测量,这些在最初的评价上很有用,但语音编码器质量或清晰度的最终判决还是需要通过人的感觉器官来测试。 对于每个语音编码测试,都必须仔细地挑选发音,以保证能够代表各种语音。例如,有一些编码器在语音处理上很不错但在清音的再生方面就不太精确了,同样,有些编码器在低频声音上性能要优于高频声音,因此,选择做实验的说话者,就应能代表现实的环境,有女声也有男声,做实验的听众也必须处于一般用户的环境下,最终,让听众听到的发音要以一定的顺序,不能对结果造成某种偏重的影响。 测试通常分成非正式测试和正式测试两个阶段。 当开发出一种语音编码器时,先要采用非正式的主客观测试,然后采用正式主观测试来评价其性能。非正式客观测量是最初的检验,比如信噪比或频谱距测量等等,当这些客观值都达到要求后,进行非正式主观测试,比如原始语音的相互比较,以及各种编码器之间相互比较。如果这些结果能通过,编码器的开发者就可以进行正式主观测试了,这就可以得到性能的指标。 下面我们将简要地讲述这两个测试阶段用到的客观性能指标,清晰度测量和语音质量的测量。 1.非正式测试 2.正式测试 3.重要因素 4.语音评测国家标准
.非正式测试 下面先介绍客观测试的计算,比如信噪比和频谱间距,再讨论非正式主观测试。 (1)客观测量 波形编码器性能的一种最容易和最常用的计算方式就是信噪比(SNR),它可以用下式表示:
其中s(n)是输入语音,S(n)(由于公式无法输入,权以此形式表示公式坟分母中的第二项) 是输出语音,< ... > 表示整个发音的时间平均。 SNR经常用来评价语音的主观性能。可以对许多不相互重叠的数据块采用此方程来表示SNR,然后对这些数据块取算术平均值。例如,令SNRB j代表第j个数据块的SNR,对于K个数据块的信噪比SNRSEG有
虽然SNR和SNRSEG可以排列出编码器的性能,但是,这些差异在感观上的区别有多大,仍然不清楚。而且,用SNR和SNRSEG来比较PCM和DPCM会得到完全错误的结论。 Itakura(1975)引入了一种频谱间距测量,可以从LPC的系数计算得到(也就是所谓的“坂仓距离”):

其中行向量A和B 是扩展的预测器系数向量,且A=[1-a1-a2-...-aN]和B=[1-b1-b2-...-bN],系数ak 可以从语音编码器的输入语音中计算出来,系数bk 可以从语音编码器中计算出来;V是语音编码器输出的自相关距阵,d>=0 ,并且按照Sambur和Jayant(1976)的论断,d<=0.3意味着输入语音的频谱与语音编码器输出的语音差别很大。 另一种频谱间距测量可以采用下式:

其中 Cs(j)和Cs(j)([...]中的两项) ,j=1,2,..., N,分别为输入语音和编码器输出语音的倒谱系数(cepstral coefficients),倒谱系数是能量谱对数的傅立叶变换,也可以从LPC系数{ai,i=1,2,...,N} 中计算出(j>=1): 一个大约为0.5db的CD值相当于8位 µ 律PCM的性能,CD值越大,性能越差。
(2)主观测试 对两个语音编码器最有效的比较方式之一就是对比听觉测试。这样的测试相对来说比较容易进行,但是只有两个相互参照的结果,也不能指出这两种编码器性能有多相近。如果两种编码失真的类型不一样,对于听众来说,要说出哪一种更好就更困难了。当一种编码器与8位 µ 律PCM相比较时,如果编码器在性能上不是相等的话,就很难确切地说出它们在性能上究竟有多相近。另外,当一个 调制器与一个子带编码器比较时, 调制器可能存在“嘶嘶”的噪音,而子段编码器可能有回响声,这时,试听者就会根据哪种失真是他所讨厌的作出的优劣判断,即由个人好恶来确定,这就不是一个可靠的性能指标。不过,这种对比试听的测试仍然广泛地使用着。
对于一些专门设备,如蜂窝通信或声音邮件,让用户在尽可能接近自然环境的条件下,真正地实验这种编码器,会更有利一些。这种方法的优点是不需要用短的、有记录的、没有代表性的语音片段来进行评价合成语音。换句话说,用户会更加关心系统是否能达到预定目标,而不是去听输出语音的“问题”出在哪儿,当然,这种方法的困难在于自然环境的实现,这意味着要有一个完全真实的系统。 2.正式测试 可分为清晰度测试和品质测试。有许多正式测试过程用于评定语音编码器的清晰度和品质。有些测试只能进行一项测试,有的可以同时测量这两项。 (1)清晰度 诊断押韵测试(DRT)是由Voiers(1977)发明的,是为了测试编码器的清晰度,韵律测试试听者判断一对押韵词的音节。例如,试听者要分辨出一对词比如meat-beat, pool-tool, saw-thaw, caught-taught 等等中的一个词,然后就要确定是读的哪一个词。最后DRT得分是按下式计算得到的百分数: P=100(R-W)/T 其中R是正确选择的数量,W是选择错误的数目,T是总共测试的单词对的数目,通常,75=<DRT=<95 ,良好的清晰度得分为90(Papamichalis 1987),关于结果详细列表是由Dynastat (Papamichalis 1987)给出的。
还有一种测试是Dynastat提出的,叫做改进的押韵测试(MRT),现在用得不多。
(2)质量 发音指数(AI)是一种声音品质的客观衡量方法,起源于1947年,现在仍然经常使用。AI是一种以频率为权重的信噪比计算法。从200Hz到6100Hz范围的频率被分成20个宽带不等的子段,如表A.1所示,对每个子段计算其信噪比,SNR的值极限为30db,标准化至1,并平均化,所以:
注意,将语音限制在电话频段,即200~3200Hz,会将AI降至90%或0.90。AI应用的主要障碍就是20个带通滤波器很复杂。
平均评价分(Mean Opinion Score, MOS),指试听者要把语音编码器的输出按质量分为优(5分)、良(4分)、中(3分)、差(2分)、劣(1分);或可以根据主观感受到的失真把编码语音分类为下面几类:察觉不到(5分),稍稍察觉到但无不适感(4分),能察觉且有不适感(3分),有不适感但还能忍受(2分),很不适且无法忍受(1分)。
括号里的数字是用来给主观评价记下分值,所有试听者的分数等级要进行平均以便给出一个编码器的MOS。同时,常常还需要计算分数等级的标准差以帮助估计所得到的MOS的适用性。高品质编码器的MOS通常为4.0~4.5,例如8位 µ =255log-PCM的MOS为4.5,标准差大约为0.6。
计算MOS值的方差很重要,因为大的方差意味着测试的不可靠。如果试听者没有清楚分类的意义就可能出现大的方差。可以把好的语音和坏的语音例子让试听者先听一下,然后再开始测试打分。研究表明,在同样的线路条件下,在不同国家用本土语言,视听者不容易在等级定位上取得相互一致。就是说,MOS需要进行调整以得到可靠的品质指标(Goodman和Nash 1982)。各种语音编码器的MOS和噪声条件由 Daumer(1982)给出。 表02-01-2 语音编码器的MOS和噪声条件
(c)诊断可接受度测量(Diagnostic Acceptability Measure, DAM),由Dynastat (Voiers 1977)开发,能更加系统地测量语音品质。对于DAM来说,关键是试听者要经过高度训练,并要反复校对以得到一个平均结果。试听者每人都要听一组句子,这些句子是从标准的发音平衡句子表中选出的(比如英语发音平衡句“Cats and dogs each hate the other”和“The pipe began to rust while new”,汉语如“他去黑龙江,我去哈尔滨”等)。这些句子是由被测的语音编码器进行处理。试听者要从信号 品质,背景品质,总体效果三个特征方面给出1~100之间的一个分数,每个特征的等级都要加权并用于多重非线性回归,最后,进行调整以弥补试听者听力造成的不足之处,典型的得分都在45~55%,50%表示这个系统“好”。
(d)调制噪音参考单元(Modulated noise reference unit, MNRU)意见均衡Q。MNRU用得很多,因为它在ITU-T 推荐书的波形编码器评价(CCITT 1984; Kitawaki 和 Nagabuchi 1988)中显出很好的特征。在成对的比较或意见测试中,编码语音要同一种参考信号进行比较,这种参考信号带有一定程度的语音相关噪音,是由MNRU 系统产生的,其比较见图2-14(CCITT 1984, 1988)。参考信号有着不同的信号-语音相关噪音比,这由Q值表示,可以通过调整衰减器/放大器的相对增益来获得。Q值表示编码MNRU输出的主观匹配是一种很好的量化性能指标。存在窄频段和宽频段的MNRU系统,窄短Q记作QN。这是一种衡量波形编码器语音性能的相当精确的方法,因为MNRU失真能模仿波形编码器的噪音,对于编码器其它形式的失真,则可能用处不大。 MNRU系统框图

3.重要因素 有一些对于所有语音编码器性能测试都很重要的因素:
第一,必须有足够的说话者,他们的声音特征要非常丰富,能够代表用户的绝大部分。
第二,要有足够的数据进行处理,以包括所有的可能性。在一些设计很好的测试当中,如DRT和DAM,语音材料是固定的,并且对说话者的类型和数量也有大致的指导性要求,在这些测试中,上述的两点不会引起争议。然而对于AI和MOS,就没有规定要多少说话者和多少数据才算足够,当然是多多亦善。有一种方法是考察新的说话者和材料,直到没有新的失真出现为止。尽管这个方法似乎是无止境的,但对于熟悉语音编码的人来说还是很有用的。
第三,对于大部分应用来说,品质和清晰度都很重要,两点都应该测试。通常,很悦耳的语音就不用评价其清晰度了。
4.语音评测国家标准 下面汇集的是一些关于语音质量及清晰度评测的中国国家标准和行业标准。 GB/T 16403-1996 声学 测听方法 纯音气导和骨听阈基本测听法,eqv ISO 8253-1:1989
GB/T 17696-1999 声学 测听方法 第3部分:语言测听,eqv ISO 8253-3:1996
GB/T 16404.1-1996 声学 声强法测定噪声源的声功率级 第1部分:离散点上的测量,eqv ISO 9614-1:1993
GB/T 16404.2-1999 声学 声强法测定噪声源的声功率级 第2部分:扫描测量(Acoustics-Audiometric test methods-Part 3: Speech audiometry),eqv ISO 9614-2:1996
GB/T 13504-1992 汉语清晰度诊断押韵测试(DRT)法(Diagnostic rhyme test(DRT) method of Chinese articulation)
GB/T 16532-1996 通信设备清晰度DRT法评价用语音材料库(Speech material library used DRT for articulation evaluation of communication equipments),idt IEC 728-1:1986
GB/T 17147-1997 声音广播中音频噪声电平的测量,eqv ITU-R 468-4:1990
GB/T 17576-1998 CD数字音频系统,idt IEC 908:1987
GB/T 14476-1993 客观评价厅堂语言可懂度的RASTI法,neq IEC 268-16
GB/T 14919-1994 数字声音信号源编码技术规范(The specifications for digital audio source coding),eqv CCIR 646
GB/T 16463-1996 广播节目声音质量主观评价方法和技术指标要求
SJ 20771-2000 军用通讯系统音质MOS评价法
注:eqv:等效于 idt:等同于
|