找回密码
 注册
搜索
查看: 1790|回复: 7

[讨论] 用哪种数字音频格式?

[复制链接]
发表于 2005-4-20 14:14:00 | 显示全部楼层 |阅读模式
D. Prabakaran
N.L. 工学院
现有许多压缩/解压方案可供选用。而这些方案
中的每一个都有它自己的折中方式。托马斯·爱迪生的重要发明之一是留声机。1877年,他发明了将声音记录在一个锡箔圆筒上的方法,他用了两根针,一根针用于录音而另一根针用于录音重放。爱迪生录下的第一句话是“玛丽有只小羊羔。”第二年,他成立了爱迪生留声机公司,向公众出售这些机器。这标志着录音产业的开始。
爱迪生和哥伦比亚留声机公司售出的第一批录音是记录在蜡质唱筒上的。这些蜡质唱筒质脆而且极易损坏。1909年当唱片变得流行时,哥伦比亚公司停止了蜡质唱筒的生产。而爱迪生公司继续生产唱筒和唱片,一直到1929年。这些贯穿二十世纪的唱筒录音装置和其他的录音装置都是颇有价值的资源,以至于很多机构,例如史密森学会和美国国会图书馆,都想在称为保护美国声音的计划中把它们保存下来。
随着时光的流逝,技术进步改变了音乐录制的方式和使用的介质。如今,我们用计算机来记录声音并将其保存在CD、MP3播放器以及其他存储设备上。广播电台使用数据压缩技术将歌曲和节目存档或者在内部交换专题和新闻,即使实际的播音仍然是传统的调频方式。
数据压缩的主要优点是把所需要的存储器减小到最低程度,并且借助压缩信号把所需要的传输带宽减小到最低程度。这种方法在资源匮乏或昂贵时是很有用的。因此,数字广播和在互联网上传送声音成为声音编码领域中两项主要的应用范畴;它甚至在现代电影院音响系统中得到了发展。
如今,用于数字音频录音的损耗式数据压缩技术得到广泛的应用。因此,像MP3、WMA、MPEG以及ATTRAC等所使用的方法不仅用于从互联网下载音乐和节省便携式音频播放器上的存储器,而且也用于现代视频游戏中的背景音乐以及在广播电台将各种音频材料存储在硬盘上,这样可以很方便地调出来用于广播。
典型的数字音频应用
数字音频广泛用于各种应用系统,包括便携式个人音频系统;车载音频系统;包括DVD、DTV、DAB、DRM在内的家庭娱乐系统;电视广播和数字有线广播,手机,互联网;以及电影。数字音频以许多不同的格式提供,并且多种格式在可预见的将来将成为无法更改的事实。虽然像MPEG这样的组织已经建立了开放标准,但是即使是使用相同MPEG标准的格式,也可能因为各种专有的组件而互不兼容。
所幸的是,对消费者而言,许多硬件和软件播放器可以支持多种格式。因此,如果你买了某一种主要格式(如MP3,WMA等)的数字乐曲,你应该不会在播放时遇到什么麻烦。如果某种格式确实变得过时了,有大量的工具可用来将这些音频转换成不同的格式。
个人电脑技术引人注目的进步以及音频压缩的发展使得文件短小的音频压缩近于完美。人们希望有一种压缩文件格式,它的声音几乎同原始未压缩文件的声音一样好,在这方面永无止境的探索还在继续。每播放一分钟未压缩的CD音频大约占10兆字节的空间,因此必须将文件压缩以便于储存。
文件压缩是一种减少音频文件长度的办法。早期的编码解码器(压缩/解压)方案存在声音质量的很大损失。更多新近的压缩方案借助于除去超出听觉范围信息的方法产生较短的文件并保留较高的保真度。
最初,大多数音频是以PCM格式录制并且放到CD上。每播放一分钟的音频,PCM格式要使用大约9兆字节的存储容量。数字压缩减小了文件尺寸,因而,也减少了音频数据在互联网这样的通信网上的传输时间。
有损压缩与无损压缩的比较
一般有两类数字压缩方法:有损耗压缩和无损耗压缩。有损耗的压缩方法,正如其名称所指,有些原有的信息在压缩中被丢弃了。因此,在播放时就不可能产生原始音频信号的精确的复制品。
现在有许多种不同的有损压缩方案。这些方案通常提供不同的压缩比。其中最流行的方案,MPEG Layer 3(简称MP3)格式,通常可用到10:1的压缩比。所有有损压缩方案均添加人工痕迹到压缩了的音频里。这些人工痕迹是由于实际音频数据的损失而产生的小瑕疵。虽然它的质量似乎还不那么差劲,但是经过一个有损数字压缩器处理过的音频不再具有“CD的质量”了。
无损压缩器产生一个原始资源的精确复制品。例如,由WinZip程序产生的Zip文件格式可产生出原始文件的精确拷贝。另一个程序,叫Shorten,取用某一音频文件并产生该原文件的一个精确的复制品。
与无损的压缩算法相比,有损的压缩算法的压缩比较高,但实际上它仅仅适合于音频或绘图数据。这些音频或图形可以复制出来,但是总体质量比它们在压缩之前低。在某些情况下,这种差别是很难察觉到的。由于压缩比通常可以调整,因而质量水平也是可改变的。那些以10:1或20:1的压缩比进行压缩的音频当然比那些以2:1的压缩比压缩的音频差很多。MPEG、MP3、AAC、RA、WMF、JPEG、QT以及DivX就是一些通常在音频和视频中使用的有损压缩格式。
各种压缩标准
那些用来描述各种文件格式的首字母缩写词可能不是PC用户基本词汇表中的一部分,如像WMA、MP3、OGG、VQF,以及WAV这些缩写词,但它们全部均描述那些已变成工业标准的特定音频格式。
1992年,从WAV标准演化而来的MP3被提出来作为正式的MPEG-1标准的一部分,它已经变成为最成功的音频标准。研发了MP3标准的德国弗劳恩霍夫协会(简称FhG)仍然持有关于它的关键专利权。使用MP3压缩,PC用户可以将音乐压缩到原来的10%。
MP3算法使用一种心理声学的编码技术。这种技术利用人类听觉独特的特性,即通过捕获我们能很好听到而编码精确度较小的音频,或者说完全除去人类听觉感觉不到的音频。MP3文件可以用各种比特速率编码,但是人们认为128Kb/s是相当于CD质量,尽管您可以把录音速率用到320Kb/s。
微软公司对MP3的回应是推出Windows Media Audio标准,即WMA。作为Windows Media的一部分,WMA 8是固定地集成于微软的Windows Media Player里。微软承诺WMA在大约为源文件尺寸三分之一时可以提供接近CD的音质。最重要的是,WMA提供这样的优势:受版权保护的歌曲由于数字权限管理(Digital Rights Management)不可以做任何进一步的发行。类似于MP3方案,WMA(以及其视频伙伴,WMV)可以连续地存储、传送,适合在互联网上使用。
大多数全功能音频播放器和许多便携式播放器均支持WMA。当WMA与在Windows下运行的软件融为一体时,它是免版税的。它的最新版本,WMA 9,是向下兼容的,并且解码器支撑是以老的Winamp WMA编码解码器的形式提供的。至于有关的编码,您需要这项新的WMA 9系统的编码解码器,以及编码软件或者需要安装Windows Media Player 9。得到微软强力支持的WMA 9,在数字音乐领域内,正在变成主导格式。
MP3的下一代叫做MP3PRO。弗劳恩霍夫协会的一个部门正与汤姆逊多媒体公司在进行着这项工作。据说MP3PRO可以在MP3文件一半尺寸情况下提供MP3的质量。这是通过进一步地压缩音调的高频部分而做到的。这种SBR(Spectral Band Replication,频段复制)技术几乎是无损耗的,并在名字中用PRO(专业)来表示。最终,MP3PRO将会取代MP3成为通用标准。
以128Kb/s速率压缩的MP3音乐听起来不止是可以接受。而以64Kb/s及更低速率压缩的音乐声音可能开始出现沉闷。原因是在较低的速率时,MP3音乐还缺乏用于压缩的比特,来将整个频带和重要细节进行压缩。
在这种情况下,MP3研发人员必须决定是让他们的编码解码器产生带有失真的MP3音乐(通常称为编码人工痕迹)或者是采用有限的带宽。他们选择了有限的带宽。结果是,您体验到的较低比特速率MP3就像带有少许失真的有限带宽音乐一样。
为了改善MP3在较低比特速率时的声音质量,Coding Technologies公司研制了一种产生高质量声音的增强技术。这项技术称为频段复制(SBR),是一种产生音频信号高频分量的有效方法。把MP3同SBR结合起来就产生低比特速率带有高带宽的音频信号。由此产生的音频格式MP3PRO是由两个分量构成,用于低频的MP3部分和用于高频的SBR(或PRO)部分。像WMA一样,MP3PRO是向下兼容的。然而,用这项技术时,较老的文件可能会有一些沉闷的声音。
MP3PRO允许小的,低比特速率的文件比用类似比特速率编码的标准MP3文件包含更多的高频细节。该音频信号的高频部分是由有效的SBR编码方法处理的,而余下的信号是用像正常的MP3一样的方法来编码的。这可使较老的MP3播放器软件来播放用MP3PRO编码的文件,即使较老的软件仅能播放标准的,信号的非SBR编码部分(这意味着您完全丢失了高频)。
当然,支持MP3PRO的新播放器将使用MP3PRO格式的两部分,以利用最新的增强功能。MP3PRO播放器仍将支持MP3,因为这是MP3PRO格式的一个重要部分。因此,当升级到MP3PRO技术时,您可以继续使用您收藏的大量MP3文件。
MP3PRO技术可以支持比64Kb/s更高的比特速率。在较低速率情况下,MP3PRO适合网络播放以及互联网广播。在较高速率情况下,MP3PRO可以用于高质量的音频传输和储存。下面列出了MP3PRO支持的比特速率:
● 单声道:18、20、24、32、40、48以及56Kb/s
● 无损编码-立体声:18、20、24、32、40、48以及56Kb/s
● 立体声:32、40、48、56、64、80以及96Kb/s
Ogg Vorbis是一种开放源码的音频压缩格式。它可粗略地与用于储存和播放数字音乐的其他格式,例如MP3、VQF以及AAC相比较。它同这些其他的格式有所不同,因为它是完全免费的,开放的,是没有专利权的。Ogg是Xiph.org公司用于音频、视频以及元数据的容器名字。Vorbis是一种特殊的包含于Ogg中的音频压缩机制的名字。注意,其他的格式,例如FLAC 以及Speex,都是可以嵌入到Ogg里去的。
从一开始,Ogg标准就是开放源码的项目,因而对于商业或者非商业两者的用途都没有任何专利。因此,商业研发者可以没有任何限制地,独立地写Ogg Vorbis软件。它本来是用作MP3及WMA的替代品的,目前相当流行。由于它的灵活性,使得算法得到不断的发展。尽管声音质量不断地得以改善,但文件还是向下兼容的,并且可以用较老的播放器来播放。像MP3一样,Ogg提供可变的比特速率编码。使用这种压缩格式,与声源有关,一首歌的某些部分可以用比另一些部分较高的压缩比编码。
Ogg是支持多通道压缩的少数几种格式之一。环绕声文件理论上可以用多于两通道方式压缩。和它的前辈一样,Ogg也是可以连续地存储、传送的,尽管播放器必须支持这个功能,这也是Ogg成功的关键之一。由于可以连续地存储、传送,它适合用于基于互联网的文件。
Ogg Vorbis是一种使用类似于MP3技术压缩音乐的有损耗编码解码器。它支持可变的比特速率,这使用户能用较少的空间来调节一首歌以获得优良的保真度。这里没有编码解码质量限制——编码解码器对立体声模式可以支持16到500Kb/s的速率,而对单声道模式为32到256Kb/s。质量是用一种专用的10分制度量的:质量0级相当于64Kb/s;5级粗略地相当于160Kb/s;而10级大约为400Kb/s。接近CD的质量是在3级和4级附近得到的,它们也调整声音质量及文件尺寸。
Ogg Vorbis是MP3的潜在竞争对手,而且因为在格式已经固定下来之后还可以灵活地调音及调节算法,它将不断地得到改善。对Ogg Vorbis不利的一面是没有商业的硬件播放器卖。目前,仅有实验的硬件支持该标准。它的编码和解码较MP3计算量更大。而且Ogg Vorbis没有提供反侵犯版权的安全措施。
高级音频编码
在MP3的成功之后,特别是有了互联网用户后,其局限性变得较明显。例如,使用较低的比特速率,MP3的质量下降相当多。这也是高级音频编码(简称AAC)格式进入的领域。同样由弗劳恩霍夫协会研发的这种格式有计划地成为MP3的继承者。然而,其目标并未达到,甚至在96Kb/s速率时,显而易见在质量方面仍然存在巨大的损失。
AAC在一个数据流里可以包括48个全带宽(可达96kHz)音频通道,加上15个低频增强(LFE,限制为120Hz)通道以及15个数据流。此外,它还具有进一步的多种语言功能。编码解码器的一个最新版本已经发展成为MPEG4标准的一部分。有些用户声称,以96Kb/s编码的AAC文件声音同以128Kb/s编码的MP3声音一样好或更好,且不论它们特别小的尺寸。
像所有感性的编码方案一样,MPEG-2 AAC主要利用人类听觉的信号屏蔽特性来减小数据量。如此,量化噪音以这样一种方式分布到频带上:它被整个信号淹没了,是听不到的。
MPEG-4 AAC已被指定为3G无线手机的高质量通用音频编码解码器。Apple Computer公司已把MPEG-4 AAC植入QuickTime 6 and iTunes 4中,也就是其便携式音乐播放器iPod的最新版本。Digital Radio Mondiale系统(用于30MHz以下无线广播的下一代数字替代品)是建立在MPEG-4 AAC的音频编码上的。
AAC高级音频编码的特点包括:
● 明晰的质量
● 在中低比特速率上对其他格式极具有竞争力
● 存储和传送的延迟小,适用于3G手机、互联网技术,或者双向广播
● 灵活性:12个可能的采样速率(8到96kHz),每通道可达256Kb/s,最多为48通道
● 适用于DVD-A编码
● 在X86 PC平台上能快速解码
● 在主要的操作系统中带有解码器/播放器
MPEG-4 AAC的一个高效版本称为aacPlus,而且它是MPEG AAC和Coding Technologies公司的频段复制(简称SBR)技术的结合。此结合可以通过两个因素之一来增加MPEG AAC的效率。结果,aacPlus提供速率为128Kb/s、连续存储和传送的5.1环绕声音频及速率为48Kb/s的有CD质量的立体声。这种效率级别从根本上使其在手机,互联网,以及数字广播市场上得到新的应用。对于按照MPEG-4第10部分标准实现的H.264/AVC视频编码解码器,accPlus也是适用的。
其他流行的格式
WAV是最早的音频标准之一。WAV文件具有与音频CD的数据大致相同的质量。不幸的是,这些文件相当大,大约10MB/分钟,因此它们不适合于每天在互联网上进行交换。WAV也是基于Windows的PC上用于音频的缺省格式。WAV文件通常是用PCM格式编码的,这意味着它们是不能压缩的。WAV文件可以用其他格式来编码,包括MP3或WMA。
Dolby Digital是一个高质量的音频编码及降噪的系统,主要用于HDTV的音频部分和数字广播TV(DTV)。它也用于DVD,激光影碟,数字有线广播,及直播卫星(DBS)系统。
RealAudio是在互联网上首先广泛使用的连续存储和传送的音频和视频系统。它是一种有专利权的格式,但是很多网上音乐商店都使用它来播放歌曲样段。RealPlayer也支持MP3。RealAudio格式,不像MP3,具有内置密码及安全特性:文件可更容易地由其内容拥有者控制。例如,RealAudio文件可以被下载,可以连续地存储和传送,或预览,这取决于该文件在编码时所做的设置(WMA也有这个特性)。RealAudio G2压缩文件类似于MP3,其CD质量的音频是在128Kb/s编码速率下达到的。
Musepack是另一个基于MPEG-1,Layer-2(MP2)开放源码算法的有损压缩方案。非正式的测试证明:MPC是在140Kb/s及以上速率的最好有损音频编码器,但是在较低的比特速率下(特别在64Kb/s),它并不具有竞争力。
作者简介
D. Prabakaran是印度N.L.工学院讲师。
发表于 2005-7-30 02:32:00 | 显示全部楼层
比较感兴趣的 谢谢
发表于 2005-8-1 10:37:00 | 显示全部楼层
有收穫!
发表于 2005-8-5 21:31:00 | 显示全部楼层
长见识
发表于 2005-9-19 15:02:00 | 显示全部楼层
<P>非常感谢,学到不少!</P>
发表于 2005-9-20 13:38:00 | 显示全部楼层
多谢楼主,收藏了,谢谢
发表于 2005-10-7 17:44:00 | 显示全部楼层
<P>hen quan</P>
点评回复

使用道具 举报

发表于 2008-9-27 15:48:00 | 显示全部楼层
好象还有 Wav,amr-nb,amr-wb,而且还有aac,aac+及aac++等
点评回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies

本版积分规则

Archiver|手机版|小黑屋|52RD我爱研发网 ( 沪ICP备2022007804号-2 )

GMT+8, 2025-1-23 04:45 , Processed in 0.048015 second(s), 16 queries , Gzip On.

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表