语音编码分类及编解码标准将音频或视频讯号在模拟格式和数字格式之间转换的硬件(编码器/解码器);压缩和解压缩音频或视频数据的硬件或软件(压缩/解压缩);或是编码器/解码器和压缩/解压缩的组合。一般,编码解码器才能压缩未压缩的数字数据,以减轻显存使用量。编解码器(codec)指的是一个才能对一个讯号或则一个数据流进行变换的设备或则程序。这儿指的变换既包括将讯号或则数据流进行编码(一般是为了传输、存储或则加密)或则提取得到一个编码流的操作,也包括为了观察或则处理从这个编码流中恢复适宜观察或操作的方式的操作。编解码器常常用在视频大会和流媒体等应用中,一般主要还是用在广电行业,作后端应用。G.711类型:Audio制订者:ITU-T所需频宽:64Kbps特点:算法复杂度小,音色通常优点:算法复杂度低,压缩比小(CD音效>400kbps),编解码延时最短(相对其它技术)缺点:占用的带宽较高应用领域:voip版税形式:Free备注:70年代CCITT公布的G.71164kb/s脉冲编码调制PCM。G.721类型:Audio制订者:ITU-T所需频宽:32Kbps特点:相对于PCMA和PCMU,其压缩比较高,可以提供2:1的压缩比。
优点:压缩比大缺点:声音质量通常应用领域:voip版税形式:Free备注:子带ADPCM(SB-ADPCM)技术。G.721标准是一个代码转换系统。它使用ADPCM转换技术,实现64kb/sA律或μ律PCM速度和32kb/s速度之间的互相转换。G.722类型:Audio制订者:ITU-T所需频宽:64Kbps特点:G722能提供高保真的语音质量优点:音效好缺点:带宽要求高应用领域:voip版税形式:Free备注:子带ADPCM(SB-ADPCM)技术G.723(低分辨率语音编码算法)类型:Audio制订者:ITU-T所需频宽:5.3Kbps/6.3Kbps特点:语音质量接近良,带宽要求低,高效实现,以便多路扩充,可借助C5402片内16kRAM实现53coder。达到ITU-TG723要求的语音质量,性能稳定。可用于IP电话语音信源编码或高效语音压缩储存。优点:分辨率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定。缺点:声音质量通常应用领域:voip版税形式:Free备注:G.723语音编码器是一种用于多媒体通讯,编码速度为5.3kbits/s和6.3kbit/s的双分辨率编码方案。
G.723标准是国际联通联盟(ITU)制订的多媒体通讯标准中的一个组成部份,可以应用于IP电话等系统中。其中,5.3kbits/s分辨率编码器采用多脉冲最大残差量化技术(MP-MLQ),6.3kbits/s分辨率编码器采用代数码激励线性预测技术。G.723.1(双速率语音编码算法)类型:Audio制订者:ITU-T所需频宽:5.3Kbps(22.9)特点:才能对音乐和其他音频讯号进行压缩和解压缩,但它对语音讯号来说是最优的。G.723.1采用了执行不连续传输的静音压缩,这就意味着在静音期间的比特流中加入了人为的噪音。不仅预留带宽之外,这些技术使发信机的调制混频器保持连续工作,而且防止了扩频讯号的时通时断。优点:分辨率低,带宽要求较小。并达到ITU-TG723要求的语音质量,性能稳定,避开了扩频讯号的时通时断。缺点:语音质量通常应用领域:voip版税形式:Free备注:G.723.1算法是?ITU-T建议的应用于低速度多媒体服务中语音或其它音频讯号的压缩算法,其目标应用系统包括H.323、H.324等多媒体通讯系统?。目前该算法已成为IP电话系统中的必选算法之一。G.728类型:Audio制订者:ITU-T所需频宽:16Kbps/8Kbps特点:用于IP电话、卫星通讯、语音储存等多个领域。
G.728是一种低信噪比编码器,但它比其它的编码器都复杂,这是由于在编码器中必须重复做50阶LPC剖析。G.728还采用了自适应前置混频器来提升其性能。优点:后向自适应,采用自适应前置混频器来提升其性能缺点:比其它的编码器都复杂应用领域:voip版税形式:Free备注:G.72816kb/s短延时码本激励线性预测编码(LD-CELP)。1996年ITU公布了G.7288kb/s的CS-ACELP算法,可以用于IP电话、卫星通讯、语音储存等多个领域。16kbpsG.728低信噪比码激励线性预测。G.728是低比特线性预测合成剖析编码器(G.729和G.723.1)和后向ADPCM编码器的混和体。G.728是LD-CELP编码器,它一次只处理5个样点。对于低速度(56~128kbps)的综合业务数字网(ISDN)可视电话,G.728是一种建议采用的语音编码器。因为其后向自适应特点,因而G.728是一种低信噪比编码器,但它比其它的编码器都复杂,这是由于在编码器中必须重复做50阶LPC剖析。G.728还采用了自适应前置混频器来提升其性能。G.729类型:Audio制订者:ITU-T所需频宽:8Kbps特点:在良好的信道条件下要达到长话质量,在有随机比特误码、发生帧遗失和多次转接等情况下要有挺好的稳健性等。
这些语音压缩算法可以应用在很广泛的领域中,包括IP电话、无线通讯、数字卫星系统和数字专用线路。G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这些算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成剖析和觉得加权等技术。G.729编码器是为低信噪比应用设计的,它的帧长只有10ms,处理信噪比也是10ms,再加上5ms的前视,这就促使G.729形成的点到点的信噪比为25ms,比特率为8kbps。优点:语音质量良,应用领域很广泛,采用了矢量量化、合成剖析和觉得加权,提供了对帧遗失和分组遗失的隐藏处理机制缺点:在处理随机比特错误方面性能不好。应用领域:voip版税形式:Free备注:国际联通联盟(ITU-T)于1995年11月即将通过了G.729。ITU-T建议G.729也被叫做“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由德国、法国、日本和美国的几家知名国际联通实体联合开发的。G.729A类型:Audio制订者:ITU-T所需频宽:8Kbps(34.4)特点:复杂性较G.729低,性能较G.729差。
优点:语音质量良,增加了估算的复杂度以易于实时实现,提供了对帧遗失和分组遗失的隐藏处理机制缺点:性能较G.729差应用领域:voip版税形式:Free备注:96年ITU-T又制订了G.729的简化方案G.729A,主要增加了估算的复杂度以易于实时实现,因而目前使用的都是G.729A。GIPS类型:Audio制订者:日本GlobalIPSound公司所需频宽:特点:GIPS技术可依照带宽状况手动调节编码码流,提供低分辨率高质量的音频。GIPS的核心技术(网路自适应算法,丢包补偿算法和回声去除算法)可挺好地解决语音延后与回声问题,带来完美音效,提供比电话偿还晰的语音通话疗效。优点:挺好地解决语音延后与回声问题,带来完美音效,提供比电话偿还晰的语音通话疗效缺点:?不是Free应用领域:voip版税形式:每年支付一笔使用权费用备注:GIPS音频技术是由来自美国的全球顶级的语音处理高科技公司--"GLOBALIPSOUND"提供的专用于互联网的语音压缩引擎系统。GIPS技术可依照带宽状况手动调节编码码流,提供低分辨率高质量的音频。GIPS的核心技术(网路自适应算法,丢包补偿算法和回声去除算法)可挺好地解决语音延后与回声问题,带来完美音效,提供比电话偿还晰的语音通话疗效。
Apt-X类型:Audio制订者:AudioProcessingTechnology?公司所需频宽:10Hzto22.5kHz,56kbit/sto576kbit/s(16bit7.5kHzmonoto24-bit,22.5kHzstereo)特点:主要用于专业音频领域,提供高品质的音频。其特征是:①采用4:1:4的压缩与放大方案;②硬件低复杂度;③极低的编码延后;④由单芯片实现;⑤单声道或立体声编解码;⑥只需单设备即可实现22.5kHz的双通道立体声;⑦高达48kHz的取样频度;⑧容错性好;⑨完整的AUTOSYNC?编解码同步方案;⑩低功率消耗优点:高品质的音频,硬件复杂度低,设备要求低缺点:不是Free应用领域:voip版税形式:一次性付费备注:子带ADPCM(SB-ADPCM)技术NICAMNICAM(NearInstantaneousCompandedAudioMultiplex?准瞬时压扩音频复用)类型:Audio制订者:日本BBC广播公司所需频宽:728Kbps特点:应用范围及其广泛,可用它进行立体声或双语广播优点:应用范围及其广泛,帧率高,动态范围宽、音质同CD相抗衡,故名丽音,因而NICAM又称为丽音缺点:不是Free,频宽要求高应用领域:voip版税形式:一次性付费备注:NICAM称作丽音,它是英语Near-InstantaneouslyCompandedAudioMultiplex的简写,其含意为准瞬时压扩音频复用,是由美国BBC广播公司开发研究成功的。
浅显地说NICAM技术实际上就是双声道数字声技术,其应用范围及其广泛,最典型的应用便是电视广播附加双声道数字声技术,借助它进行立体声或双语广播,以充分借助电视频道的频谱资源。这是在常规电视广播的基础上无需降低许多投资就可以实现的。在进行立体声广播时,它提升了音频的讯号质量,使其接近CD的质量。并且还可以借助NICAM技术进行高速数据广播及其他数据传输的增殖服务,这在现今的信息化社会中其实就变得尤为重要了!MPEG-1audiolayer1类型:Audio制订者:MPEG所需频宽:384kbps(压缩4倍)特点:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。优点:压缩方法相对频域压缩技术而言要复杂得多,同时编码效率、声音质量也急剧增强,编码延时相应降低。可以达到“完全透明”的声音质量(EBU音效标准)缺点:频宽要求较高应用领域:voip版税形式:Free备注:MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:--层1(Layer1):编码简单,用于数字盒式录音磁带--层2(Layer2):算法复杂度中等,用于数字音频广播(DAB)和VCD等--层3(Layer3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍MUSICAM(MPEG-1audiolayer2,即MP2)类型:Audio制订者:MPEG所需频宽:256~192kbps(压缩6~8倍)特点:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM因为其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制做、交换、存储、传送中得到广泛应用。
优点:压缩方法相对频域压缩技术而言要复杂得多,同时编码效率、声音质量也急剧增强,编码延时相应降低。可以达到“完全透明”的声音质量(EBU音效标准)缺点:应用领域:voip版税形式:Free备注:同MPEG-1audiolayer1MP3(MPEG-1audiolayer3)类型:Audio制订者:MPEG所需频宽:128~112kbps(压缩10~12倍)特点:编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混和压缩技术,在当时的技术条件下,MP3的复杂度变得相对较高,编码不利于实时,但因为MP3在低分辨率条件下高水准的声音质量,致使它成为软解压及网路广播的宠儿。优点:压缩比高,适宜用于互联网上的传播缺点:MP3在128KBitrate及以下时,会出现显著的高频遗失应用领域:voip版税形式:Free备注:同MPEG-1audiolayer1MPEG-2audiolayer类型:Audio制订者:MPEG所需频宽:与MPEG-1层1,层2,层3相同特点:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1,?层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。
优点:支持5.1声道和7.1声道的环绕立体声缺点:应用领域:voip版税形式:按个缴纳备注:MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1,?层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。AAC(AdvancedAudioCoding,先进音频编码)类型:Audio制订者:MPEG所需频宽:96-128kbps特点:AAC可以支持1到48路之间任意数量的音频声道组合、包括15路低频疗效声道、配音/多语音声道,以及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。AAC主要可能的应用范围集中在因特网网路传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种十分灵活的熵编码核心去传输编码频谱数据。具有48?个主要音频通道,16?个低频提高通道,16?个集成数据流,16?个配音,16?种编排。优点:支持多种音频声道组合,提供优质的音色缺点:应用领域:voip版税形式:一次性收费备注:AAC于1997年产生国际标准ISO13818-7。先进音频编码(AdvancedAudioCoding--AAC)开发成功,成为继MPEG-2音频标准(ISO/IEC13818-3)以后的新一代音频压缩标准。
在MPEG-2制定的初期,原本是想将其音频编码部份保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所其实地,这个标准是不兼容MPEG-1的,因而被称为MPEG-2AAC。换句话说,从表面上看,要制做和播放AAC,都须要使用与MP3完全不同的工具。DolbyAC-3类型:Audio制订者:日本杜比公司所需频宽:64kbps特点:提供的环绕立体声系统由5个全频带声道加一个超高音声道组成,6个声道的信息在制做和还原过程中全部数字化,信息损失甚少,细节丰富,具有真正的立体声疗效,在数字电视、DVD和家庭影院中广泛使用。优点:环绕立体声,信息损失甚少,细节丰富,具有真正的立体声疗效缺点:应用领域:voip版税形式:按个缴纳备注:杜比数字AC-3(DolbyDigitalAC-3):英国杜比公司开发的多声道全频带声音编码系统,它提供的环绕立体声系统由5个全频带声道加一个超高音声道组成,6个声道的信息在制做和还原过程中全部数字化,信息损失甚少,细节丰富,具有真正的立体声疗效,在数字电视、DVD和家庭影院中广泛使用。PCM编码(原始数字音频讯号流)类型:Audio制订者:ITU-T所需频宽:1411.2Kbps特点:音源信息完整,但冗余渡过大优点:音源信息保存完整,音色好缺点:信息量大,容积大,冗余渡过大应用领域:voip版税形式:Free备注:在计算机应用中,才能达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。
为此,PCM约定俗成了无损编码,由于PCM代表了数字音频中最佳的保真水准,并不意味着PCM就才能确保讯号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的分辨率是一件很轻松的事情,取样率值×采样大小值×声道数bps。一个取样率为44.1KHz,取样大小为16bit,双声道的PCM编码的WAV文件,它的数据速度则为?44.1K×16×2=1411.2Kbps。我们常见的AudioCD就采用了PCM编码,一张光碟的容量只能容纳72分钟的音乐信息。WMA(WindowsMediaAudio)类型