数字语音编码技术和标准介绍第六图书馆文章对数字语音或音频编码技术进行了归纳,并比较和剖析了去年来ITU-T制定的语音编码标准,重点阐述了G.729等几种主要的话音编码标准的基本原理。最后,对音频压缩的方展趋势进行了展望。文章对数字语音或音频编码技术进行了归纳,并比较和剖析了去年来ITU-T制定的语音编码标准,重点阐述了G.729等几种主要的话音编码标准的基本原理。最后,对音频压缩的方展趋势进行了展望。语音编码音频编码ITU—T标准数字语音音频压缩中国新通讯李娜[1,3]王中元胡瑞敏朱福喜[1]南宁学院计算机大学,上海430072[2]南宁学院国家多媒体软件工程技术研究中心,上海430072[3]北京学院档案馆,上海4300722007第六图书馆第六图书馆CHINANEWTELECO~IvlMUNlCA李娜1,3王中元z胡瑞敏1,2朱福喜(1.上海学院计算机大学上海430072)(2.上海学院国家多媒体软件工程技术研究中心上海430072)(3.上海学院档案馆上海430072)第六图书馆童~音频数据的压缩技术和编码性能翥嚣骂音频数据是多媒体数据的一种,通常来说实用假如能针对那些特征展开压缩其疗效会更好。
音频正交失效使基于瑞利散射的光纤裂纹传感器丧失5总结与展望了最优方法的工程应用,致使需在工程内部建立复拱坝安全监控跨越地域较大,检测点数目多,杂的特定构象的光纤检测网路。这些复杂的网路构在雨季时要求系统通信速度高,协程响应时间短。监型既降低了光纤传感器工程应用的困难,同时就会进控的大部份作业点分散于野外,环境恶劣,其中还有一步增加传感器光纤的工程存活率和缝宽阻值,因此许多是无人值守的设备或检测点,不适宜搭建有线需进一步探求研究结构简单、工程实用的新型絮凝通信网路,基于GPRS的信息检测的无线传输是新土水坝裂纹光纤检测技术。时代通讯技术的产物,是发展的趋势。参考文献[1]吴永红.光纤光栅水工渗压传感封装的结构剖析与实验.上海:山东学院,2003f2]王惠文.光纤传感器技术与应用.上海:国防工业出版社,2001f3]江毅,LEUNGKYC.光纤裂纹传感中开裂长度与光纤耗损关系剖析.上海理工学院学报,2003f4]中华人民共和国水利部国际合作与科技司.水利技术标准汇编(水利水电卷·仪器).上海:中国水利水电出版社,2002[5]吴永红等.混凝土高拱坝裂纹光纤检测网路构象的优化.水利水电科技进展,第26卷第6期,2006年12月t9中国新通讯l技术版)2007.7_CHlNANEWTELEC0MMUNlCAT1ONSlTechnicaIEdition讯号压缩的算法主要有下边几种。
Ffvr或MDCT变换,界定的子带多达32个。1.波形编码6.统计编码波形编码是最简单也是应用最早的语音编码方统计编码在图象编码中大量应用,但在语音编法。最基本的一种就是PCM编码,如G.711建议中码中出于对编码器整体性能的考虑(变长编码易引的A律或律。APCM、DPCM和ADPCM也属于波起误码扩散),甚少使用。对存在统计冗余的讯号来形编码的范畴,使用这种技术的标准有G.721、说,统计编码确实可以大大增强编码的效率,所以,G.726、G.727等。波形编码具有施行简单、性能优良近些年来出现的音频编码算法中,统计编码又重新得的特征,不足是编码带宽常常很难再进一步增长。到了注重。MPEG伴音和G.722.1建议中采纳了哈夫2.预测编码曼变长编码。语音讯号是非平稳讯号,但在短时间段内(通常评判语音编码算法的指标好多,最基本的应当是30ms)具有平稳讯号的特性,因此对语音讯号幅综合考虑四个方面:编码质量、编码速度、编解码的度进行预测编码是一种很自然的做法。最简单的预复杂程度、编解码信噪比。编码质量可以采用主客观评测是相邻两个样点问求差分,编码差分讯号,如价,但物理意义上的最小偏差不见得有最好的感官G.721。
但更广为应用的是语音讯号的线性预测编码质量,所以MOS(MeanOpinionScore)$lJ分广泛应用。(LPC)。几乎所有的基于语音讯号形成的全极点模型MOS得分采用三级评分标准,如表l所示。对于数字的参数编码器都要用到LPC,如G.728、G.729、传输系统来说,编解码的复杂程度不应当影响实时G.723.1建议。处理,否则没有意义。编解码信噪比也是一个重要的指3.参数编码标,为了保证正常通话,当总信噪比超过lOOms时,一参数编码是构建在人类语音形成的全极点模型般都须要采取回声抵消或回声抑制等举措。的理论上,参数编码器传输的编码参数也就是全极第六图书馆点模型的参数一杂讯、线谱对、增益。对语音来说,参表1MOS判分三级标准及相应的描述数编码器的编码效率最高,但对音频讯号,参数编码MOS评分质量级别失真级别器就不太合适。典型的参数编码器有LPC一10、LPC—5优不察觉,IOE,其实,G.729、G.723.1以及CELP(FS一1016)等码4良刚有察觉本激励声码器都离不开参数编码。3可有察觉且稍觉可厌4.变换编码2差显著察觉且可厌但可忍受一般觉得变换编码在语音讯号中作用不是很1坏不可忍受大,但在音频讯号中它却是主要的压缩方式。
例如,MPEG伴音压缩算法(含知名的MP3)用到FFT、2语音编码标准MDCT变换,AC一3杜比立体声也用到MDCT,G.722.1建议中采用的MLT变换。在近些年来出现的低速度语国际电报电话咨询委员会(CCITr)和国际标准音编码算法中,STC(余弦变换编码)和WI(波形插化组织(ISO)先后提出一系列有关语音编码的建议,值)占有重要的位置,小波变换和Gabor变换在其中表2中列举了一些流行的语音编码算法和国际标有用武之地。准。1992年首先拟定了G.71164kbit/sA()律PCM5.子带编码编码标准。1984年又公布了G.721标准(1986年修子带编码通常是同波形编码结合使用,如G.722订)。它采用的是自适应差值脉冲编码(ADPCM),数使用的是SB—ADPCM技术。但子带的界定更多是对据率为32kbids。以上两个标准实用于200~3400Hz卷积系数的界定(这可以更好地借助低频带比高频窄带话音讯号,已用于公共电话网。针对宽带语音带觉得重要的特征),故子带编码中,常常先要应用(50—7kHz),CCITt制订了G.722编码标准,它的数某种变换方式得到卷积系数,在G.722.1中使用据率为64kbids、56kbids、48kbids。
它可用于综合业MLT变换,系数界定为16个子带;MPEG伴音中用务数字网(ISDN)的B通道上传输音频数据。以后公CHINANEWTELECOMMUNICATIONSlTechnicalEdition)JUL2007No.13CHINANEW丁ELECOMMUNICATIONS(TeChnICaIEdI¨On…一一一…~…一一一表2语音编码算法和标准算法名称数据率标准应用质量PCM均匀量化A()A()律64kbiffsG.7l1APCM自适应量化波形编码DPCM差份量化公共网ISDN配音4.0-4.532kbiffsG.721ADPCM自适应差份量化16~40kbiffsG.72616—40kbit/sG.727SB—ADPCM子带一自适应差份量化48—64kbiffsG.722LPCLPC11O—E线性预测编码2.4kbiffsFS一1O15保密话音2.5-3.5参数编码MELP混和激励LPC2.4kbiffsCELP码本激励LPC4.8kbit/sFs.1016军事通讯VSELP矢量和激励LPC8kbiffs联通通讯RPE—I胛长时预测规则脉冲激励LPC13.2kbiffsGSM混和编码3.7~4.OLD—CELP低信噪比码激励LPC16kbiffsG.728公用网ISDNCS—ACELP共扼结构一代数码激励LPC8kbiffsG.729IP-Voc联通通讯MP-MLQ-ACELP多脉冲一极大残差量化一代数码激励5.3/6.3kbiffsG.723.1PSTNH324第六图书馆SQVH标量量化矢量哈夫曼编码24。
32kbiffsG.722.1公共网4.2变换编码MPEG多子带感知编码128kbiffsCDkbiffsCD5.OAC一3感知编码3OOkbiffs音箱5.O布的G.723.1建议中分辨率为5.3kbit/s和6.3kbit/s,际联通联盟(ITU)正在制订更低分辨率高质量短信噪比G.726中的分辨率为40kbit/s、32kbit/s、24kbit/s、16kbit/s。的音频编码标准,帧率限制在4kbit/s,已有几家大公CCITT于1990年通过了16~40kbit/s镶嵌式ADPCM司和研究组织提出了竞选方案,ITU正在组织评估标准G.727。低分辨率、短信噪比、高质量是人们期望的目测试,预计今年上半年就可以发布。标。在AT&TBell实验室16kbit/s短信噪比码激励上述算法和标准广泛用于多媒体技术和通讯(LD—CELP)编码方案的基础上,经过优化,CCITY在中。如多媒体节目中的音频编码、可视电话、语音电1992年和1993年分别公布了浮点和定点算法的子短信、语音信箱、电视大会系统中。下边简单介绍G.728标准。该算法信噪比大于2ms。
话音色量可达几种常用的语音编码标准。MOS4分以上。ISO运动图象专家组在制订运动图象2.1G.722,64kbit/sf7kHz)音频编码编码标准的同时,为图象伴音制订了20kHz带宽的本建议公布于1988年。它给出50—7000Hz音频128kbit/s标准。1988年法国数字联通通讯GSM指定编码系统的特点,可用于各类高质量语音应用。编码了泛美数字联通通讯网的13kbit/s长时预测规则脉系统采用子带自适应差分脉冲编码技术(SB—AD—冲激励(RPE—LTP)语音编码标准。1989年北美蜂窝PCM),比特率为64kbids。称为64kbids(7kHz)音频电话工业组织(CTIA)公布了北美数字联通通讯标编码。应用SB—ADPCM技术,整个频带被分为高低准,它采用自适应码本激励。El本的数字联通通讯标两个子带,用ADPCM分别对每位子带编码。系统有准是6.7kbit/s的VSELP(矢量和激励线性预测)。国三个基本工作模式,相应的比特率是64、56和4841中国凝通讯t技术版12001200ZZ77CHCHINANEWTELEC0MMUNICAT10NS(丁echnlcaiEdltion失真。
若采用数字混频器来分裂子带,因为存在过渡带,恢复下来的讯号将出现失真。若正交镜像混频器在分裂子带时出现混叠,它可以在接受端用另一组正交镜像混频器来去除。2.2G.729,8kbit/s语音编码G.729协议定义了8kbids分辨率的共扼结构代数码本激励(CS—ACELP)图164kbit/s音频编解码器框图语音编解码算法。模拟讯号经过电话带宽混频,以kbids。8kHz取样,再转换为16bitPCM码,送人编码器编图1是G.722原理框图。发送器将音频讯号转码,输出比特流参数,解码器对比特流参数解码,以换成16kHz、14bit的数字序列,SB~ADPCM编码器同样方法转换为模拟讯号。其他格式的讯号都要预将其增加到64kbids。解码器执行编码器的逆操作,先化为16bitPCM码,解码后再转换回去。由操作方法决定,它可对64、56或48kbids音频编码CS—ACELP编码器构建在码本激励模型的基础第六图书馆解码。接收器从14bit的16kHz抽样序列构建音频信上,8kHz取样讯号每10ms为一帧(含8O个样本),号。当64kbids内要有辅助数据通道时,须要降低数按帧估算CELP模型参数(LP系数、码本增益、基音据插入装置和数据分解装置。
数据插入装置在发送和码本索引),将参数编码传送。帧编码参数比特分端,它为每8bit降低1或2bit音频数据,以提供8或配见表3。解码器将接收到的参数解码,得到激励和16kbit/s的辅助数据通道。合成混频器参数。激励讯号经过短时合成混频器滤SB—ADPCM结合了波形编码和子带编码的优波得构建语音讯号,短时合成混频器为1O阶滤点。通常来说波形编码具有编码质量高、实现简单的波器。长时混频器为自适应码本混频器。构建语音还特性,而子带编码是一种高压缩比、高码率的编码需经过若干个后检波处理步骤。方式。它的特征是可以把噪音限制在各自表3编码参数的比特分配的子带内,避免了子带间噪音的相互干扰。还可以依照不同子带的信息量独立设计预参数码字第一子帧第二子帧一帧总比特数测编码器、分配不同的量化比特数,因而使LSP线谱对Lo,L1,L2,L318编码数据率最低。通常来说低频子带较高基音信噪比P1.P28513频子带量化精细,其实现办法有三种:低频信噪比校准位PO11带比高频带界定窄、低频带比高频带分配四脉冲索引C1,C2131326的比特数多、低频带下取样抽取率比高频带低。
本合同采取第二种方法,编码后每样四脉冲符号S1.S2448点占8bit,其中6bit给低频带,2bit给高频第一级增益量化GA1.GA2336带。第二级增益量化GB1.GB2448高低子带的界定是通过正交镜像混频共计80器(QMF)实现的,它有效地防止了讯号的42CHINANEWTELEcoMMUN|cAT|ONS(FechnicalEdition)duL2007No.13CHINANEWTELECOMMUNICATIONS{TechnicaIEdition2.3G.723.1。5.3/6.3kbit/s语音编码形配准(WI)。STC可看作一种新的纹波激励模型,它随着互联网技术的快速发展和多媒体通讯业务觉得带宽有限的语音讯号可以通过有限的正弦波叠的急速下降,近些年来ITu对8kbit/s以下的高质量语加合成,现在它同声道全极点模型一样,成为一种基音编码方案给与了极大关注。由ITU—T的第15小组本的语音剖析—合成技术。STC、MBE和WI都要应(SG15)1995年提出的G.723.1标准是极低速度多媒用正弦波模型合成语音,不同的是MBE要界定子体通讯标准系列H.324中的有关语音编码的一个标带,在子带的基础上进行剖析—合成;W1只传送部准。
G.723.1编码器采用了线性预测剖析合成的技分语音段(没有传送的语音段通过配准得到),分术,对8kHz采样的16bit精度的PCM数字音频进行析—合成自然主要针对传送的语音段。MELP基于线处理,以尽量降低实际语音与合成语音之间经触觉性预测编码的二元激励模型。据悉,有报导见将隐马加权后的差分讯号的能量为准则来进行编码的。在尔柯夫模型和语音辨识技术结合上去,可把比特率G.723.1标准中提供了两种可选速度,分别为降到150bit/s;将人工神经网路理论用于语音编码也5.27kbit/s和6.3kbit/s。和同样速度的其他语音编码有人作了尝试。器相比,这两种编码器都具有较高的语音质量,较低以上四种方案中,MBE研究得最早,国际海事卫的编码码流(30~40ms)。其中5.27kbit/s编码器只搜星组织于1990年采纳的4.15kbit/s语音压缩标准就索一个激励码本,所以速率很快,所需的储存空间也是IMBE(改进的MBE),目前有人对这一算法在更较小。高端应用,如1.2~2.4kbit/s做了好多卓有成效的研究;MELP在1996年8月成为联邦2.4kbit/s的新标3语音编码发展趋势准;STC和WI是近来几年才被提出的新型算法,在音频(语音)编码标准因为具有巨大的商业利低比特率语音编码方面极有潜力,非常是在益,因此其编码算法仍然是通讯和讯号处理学科中2.4kbit/s、1.2kbit/s速度下,WI凸显出挺好的发展前第六图书馆最活跃的研究领域之一。
语音编码算法发展迅速,现景,它的缺点是估算量太大,无法实时应用,因此研在最显著的两个发展趋势是窄带话音和宽带音频。究高效、实时的WI算法是一件很重要的工作。宽带音频编码追求的是50~22kHz间高质量的音频波形配准(WaveformInterpolation)由日本贝尔实讯号编码,它对编码数据率要求不是很严。而窄带话验室的w.B.Kleijn博士于1991年提出的,最初的波音编码恰恰相反,它追求的是低比特率甚至甚低比形配准模型是为了改进CELP语音编码器中韵尾段特率下的通讯等级质量,以减少数据率、节省带宽为语音的建模问题。通过观察发觉,韵尾段语音讯号近主要目的。因为应用不同,两者依赖的主要技术也有似周期变化,从任意时刻起可以找到一序列时间上区别,宽带音频编码相对简单一些,以变换编码、子连续的基音周期波形,这种基音周期波形变化平缓,带编码和心理声学模型为基础;而在2.4kbit/s以下,借助这些慢变特点,可以通过插补的办法近似得到甚至1.2kbit/s左右要达到通讯等级的话音色量,是任意中间时刻的周期波。这是初期的波形插补思想,一个相当困难的课题,世界各国好多学者为这一课发展到后来,学者们进一步注意到,除了可以从时间题付出了常年不懈的努力。
中将语音讯号波形分为慢变和快变两种变化趋势,CELP方案在4—16kbit/s速度上获得了巨大的并且每一种波形还可以进一步分解为慢变波形成功,但当速度高于4kbit/s时,因为码本容量显得太(SEw)和快变波形(REw)两种成份。不同的语音段小,不能挺好地代表预测余量讯号,性能会很快下这两种成份的比列不同,韵尾语音段SEW成份低于降,研究者普遍觉得必须寻求新的途径来解决REW成份,清音语音段则相反。这样分解的用处,一4kbit/s以下速度的高质量语音编码的问题,这是目是SEW和REW都存在于韵尾、清音段,不用进行通前语音编码研究的主要课题之一。4kbit/s以下的语常很困难的u厂v裁定;二是将SEW和REW从感知音编码近些年出现了四种基本技术:多带激励(MBE)、的角度分开量化,进一步提升了编码效率或编码质余弦变换编码(STC)、混合激励线性预测(MELP)、波量。43中国新通讯(技术版)2007,7