找回密码
 注册
搜索
查看: 1435|回复: 0

[讨论] 语音编码技术

[复制链接]
发表于 2006-7-19 15:22:00 | 显示全部楼层 |阅读模式
语音编码技术
华国刚?
(中国科技大学)
摘要:传统电话学概念达到网络传输质量的语音传输速率从64Kb/s降到32Kb/s,16Kb/s并且现在已到8Kb/s。用于蜂窝无线传输的通信质量语音在欧洲已以13Kb/s GSM标准实现于移动电话网,同时8Kb/s IS-54 标准早已在美国应用,并且出现了2.4Kb/s的新的美国联邦标准,目前的焦点是实现2.4Kb/s以下的具有鲁棒性的数字语音编码技术。
1 前言
长期以来在通信网的发展中解决信息传输效率是一关键又极其重要的问题,有两个途径来研究这一课题,其一是研究新的调制方法与技术来提高信道传输信息的比特率,其指标是每一赫兹带宽传送的比特数;其二是在信源上,压缩信源编码的比特率,例如标准PCM编码,对3.4KHz频带信号需用64Kb/s编码比特率传送,如果压缩这一比特率显然可以提高信道传送的话路数。这对任何频率资源有限的传输环境无疑是极为重要的,尤其是在无线通信技术决定今后通信发展命运的今天更显得重要,实际上压缩语音编码比特率对话音存储,语音识别与合成等技术都直接相关。语音编码技术的进展对通信新业务的发展都有极为明显的影响,例如IP电话业务,实时长途翻译业务,交换机的人工智能接口等等,因此国际电报电话咨询委员会(CCITT)第十五组提出许多紧迫需要决定的话音编码标准建议以推动通信网的发展。?
    近年来超大规模集成电路工艺技术的飞速进展和数字信号处理技术的实用化人们已可在单一硅片上很容易地做出几百万晶体管的电路,其工作频率可达到几千兆赫的范围,而信息处理速度可达几千万次/秒乘加的操作,这在十年前都是不可想象的,而且这些电路都可以在几个到几十个美金一片电路的价格下做到,从而可以使人们理解为什么可以获得过去不可能得到的效益。例如长途国际通信中可以由计算机从中做两国语言的翻译,电子邮件,语音邮件是多么迅速而又经济的代替相当一部分信件。在海缆与卫星通信中由于采用语音编码压缩与话音扦空技术可使得传输容量扩大到5倍,原来只能传送30路电话的2兆比特码流经过变换可以传送150个话路信号。又如:采用ADPCM变换编译码技术则可实现两倍的扩容效果。而其话音质量几乎不受影响。由于VLSI的发展实现这一技术的代价已从昂贵的信道中采用发展到一般信道中都可接受的水平,因此编码技术日益受到重视。当前数字移动通信和个人通信(PCN)是深受人们重视的通信手段,其重要问题之一是压缩语音编码速率。?
下表给出了语音编码技术的发展情况

   编码标准CCITT   CCITT   CCITT   CCITT
G.711    G.721    G.7XY   G.729 GSM  CTIANSA
NSA
公布年代1972年   1984~86    1992     19951988 19891989
1975
比特率64kb/s    32kb/s   16kb/s    8kb/s 13kb/s 8kb/s4.8kb/s
2.4kb/s
算法名称PCM      ADPCM    LD-CELP      CELPRPE/LT  CELPCELP
LPC
应用领域公用电话网   公用网   公用网    公用网数字移动  语音邮件保密电话
MOS质量4.3     4.1    4.0     4.0 4.0~3.73.0~2.5


注:CTIA为美国蜂窝通信工业协会;NSA为美国国家安全局?MOS质量:>4.0达到长途电话公众网标准;3.5通信质量3.0已具有自然度和高度可懂性;2.5有足够可懂性
2. 语音编码的质量标准
2.1 语音带宽与通信对编译码要求?
目前在声频范围有三种标准:?
    电话信号 200Hz~3.4kHz?
    调幅广播 50Hz~7kHz?
    调频广播 20Hz~15kHz?
    宽带声频 10Hz~20kHz(CD唱机)?
    其编码数字率在16K~128kb/s,决定于应用的目的与用户的期望。?
    在衡量编码系统是否实用于通信其主要衡量指标有:?
    1)处理延迟:它和传输延迟有相同效果,因此不同通信手段将有不同的要求指标,对方案选择有决定性影响。?
    2)误码容限和级连编译码容限。级联容限是反映通信传输的音频转接次数的容限,是通信网中必须考虑的问题。?
    3)非话信号通过能力:如Moden信号,信令信号的通过能力等。?
    4)语音再生质量:在给定比特率下经过编译码后的再生话音信号质量。?
    2.2 再生话音质量的衡量标准:?
    话音质量包括有清晰度与自然度,前者是衡量话音中的字,单词和句子的可懂程度,而后者则是对讲话人的辨识水平。这些都和人的主观听觉感知有密切关系,是一种主观判定标准,虽较为繁杂但应用较多。长期以来人们在寻找一种客观的测度办法,而它又十分可靠地符合主观判定标准。但勿论主观或客观测量方法都是人们十分关心的内容。现将语音质量测试方法分别叙述如下:?
    2.2.1 MOS 分 (mean opinion score)?
    是一种常用的主观判定方法,以其平均主观打分来度量,用五级确定话音质量的等级,有优,良,中,差,劣五级。?
    1)MOS 4.0分:为高质量话音,接近信道透明编码,常称为网络质量,即适用于公众电信网环境,当然还需要满足其它方法要求,再生语言质量符合长途通信。?
    2)MOS 3.5分:定为通信质量,这里话音质量会感到有所下降,而且很容易感到下降,但不足以妨碍通常通信。?
    3)合成语音质量:指采用参数语音综合技术恢复的语音,它一般具有高的可懂度,但自然度和讲话人的确认等级不够,这类语音一般不会超过3.0分。?
    4)高质量语音:一般频带应达到7kHz以上,这时MOS分可达5分。?
    2.2.2 低比特率语音的客观衡量?
    作为衡量语音质量的客观度量常用作语音质量的补充测度,尤其是低比特率语音编码中常使用,一般有两种方法:?
    1)音韵字可懂度测量DRT(diagnostic rhyme test)?
    2)满意度测量DAM(diagnostic acceptatility test),在多维条件下测试语声通信的满意度。用这三种方法对一些编码方法的试验结果见下表。
方法体制64kb/s PCM32kb/s ADPCM16kb/s LD-CELP8kb/s CELP4.8kb/s CELP
(NSA 1076标准)2.4kb/s CELP
(LPC10e标准NSA1075)
DRT959494(估值)93(上界)93(下界)90
DAM736870686455
MOS4.34.14.03.73.2(上界)2.5(估计)

3 几种编码方案介绍
    数字语音编码技术从1938年提出PCM开始,编码方法有很大的发展,如ADPCM,1968年提出的线性预测编码技术(LPC),70年代未出现的隐马科夫技术(HMM)以及矢量量化(VQ)等等。本文重点介绍近几年出现的,码率较低的几种编码方案。?
    3.1 新的美国联邦标准——2.4kb/s MELP?
    该编码方案最近已被确定为新的美国联邦标准,它是基于混合激励线性预测(MELP)模型,同时作了一些改进,如有效的量化算法,这种编码器在背景噪声和信道误码以及在实时系统中都能取得最佳的效果。
    在传统编码器的基础上,该方案作了三个方面的改进:增强型MELP模型;参数的更有效的编码和量化;编码器最优化。?
    该MELP模型基于传统的LPC语音编码器,是用一周期脉冲序列或白噪声激励一个全极点滤波器。这一模型另有四个特征。如上图所示,这一合成器有以下四个另外的特征:混合脉冲和噪声激励,周期或非周期脉冲,自适应频率谱增强,和脉冲分散滤波器。这些特征能够使混合激励LPC编码器能更好地模仿人的自然语言,该方案用三种基本方法来提高这一LPC模型:富立叶系列编码,mel-scale,LPC,和更快速帧速率。?
    该方案提出了量化MELP系数的更有效的方法,并提出了两种不同的方法来传输变帧速率的MELP系数。?  该方案应用模拟退火,帧重复和前向纠错(FEC)等方法来保证它对信道误码的鲁棒性,再生语音的主客观质量都优于基本LPC编码器。对于22.5MS的帧,该算法用浮点DSP(60MHz,TMS320C31)进行实时处理,需20MIPS,其中编码14MIPS,解码6MIPS,需要9K字节的存贮器。?
    目前,又提出了关于这一算法的改进算法,编码速率可降至1.7kb/s,主要在以下三个方面提出改进:基音和浊音估计,噪声抑制,帧长度从22.5ms减少到20ms。?
    3.2 基于HMM的语音识别/合成编码技术?
    这一算法给出了一种极低的语音编码技术(150bit/s),其主观测试质量优于400bit/s的基于矢量量化的语音编码器,其框图如下:?

    在速率在100bit/s量级的编码技术中,音素和音节编码器是最流行的技术,它将语音分解成一系列的语音基元,用语音识别技术,传输所得基元的序号及基元的持续时间,解码器根据基元序号和持续时间将语音基元联结起来合成而得。?
在该算法中,语音频谱由mel-cepstral分析技术所得的mel-cepstral系数提供,每一音素的mel-cepstral系数矢量由音素隐马尔科夫模型建模。编码端用先进的语音识别技术识别出音素,用熵编码和矢量量化来传输音素序号和状态持续时间,基音信息也传送给解码器。在解码端,音素马尔科夫链根据音素系列被连接起来,状态系列由状态持续时间决定,于是一系列mel-cepstral参数矢量得到了,最后根据这些参数用MLSA滤波器等到合成的语音信号。?
    用这种方法的再生语音自然度较差,如果考虑在编码端提起关于话者的声道特征参数和语气、语调信息,在合成时加入这些信息,将可以大大提高再生语音的自然度。?
    3.3 基于人工神经网络的MPLPC矢量量化器?

    该方案提出了一种人工神经网络在语音压缩编码方面的应用,应用kohonen网络实现语音多脉冲激励分析模型的矢量量化方法。?
如上图所示为分析网络的结构。语音分析帧样点由网络高输入结点逐个移入网络中,此时令
  
为输入结点数,P为预测阶数,L为分析帧的样点数。?
    由上式可看出,当通过改变加权值,使对应于整个分析帧的网络代价函数cf(k)最小时,其过程等价于求解预测系数使预测误差的总能量最小,而后者是一般线性预测分析的目标,因此网络实现方法和LPC方法是一致的。?
    语音分析帧输入到预测系数和多脉冲分析量化网络中,通过计算各输出结点的输出值,选择其中具有最小网络代价函数的结点,该结点的序号被编码后被传送至译码端,和该结点连接的加权值矢量将成为输入语音分析帧的参数值量化。?
    译码端在收到两个网络输出结点序号的编码后,可以通过网络得到相应的量化后的预测系数和多脉冲激励序列,并由此合成出语音信号。?
对于10KHz的抽样率,分析帧长为160样点,对应的编码长度为50bits。故最终码率约为3.2kb/s.?
4. 结束语?
    语音编码技术当前不仅受到研究部门,应用部门重视,而且对制度标准的部门也有极大推动,因为标准是对工业生产的一个重要前提,这都是因为它对通信体制的确定有极大影响。?
  目前,关于低速率语音编码算法发展较快,它可应用的范围也极其广泛,人们将从中获得极大效益,这些对推动各种通信标准及网络的建设都是十分重要的[br]<p align=right><font color=red>+5 RD币</font></p>
高级模式
B Color Image Link Quote Code Smilies

本版积分规则

Archiver|手机版|小黑屋|52RD我爱研发网 ( 沪ICP备2022007804号-2 )

GMT+8, 2024-11-20 10:27 , Processed in 0.058592 second(s), 16 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表