有損壓縮的常見格式

——MP3(MP3PRO\MP3SURROUND)、AAC(*.3gp/*.mp4/*.m4a)、ATRAC3/ATRAC3+(*.aa3)。

我們先來了解壹下音頻壓縮的原理:利用人類聽覺的心理聲學特性(頻譜掩蔽特性和時間掩蔽特性等。)和人耳對信號幅度、頻率、時間的有限分辨能力，所有人耳感覺不到的頻率都不進行編碼或傳輸，即所有對人耳分辨聲音信號的強度、音調、方位沒有貢獻的部分(稱為無關部分或不相關部分)都不進行編碼和傳輸。對感覺不到的部分進行編碼時，允許有較大的量化失真，並使其低於聽覺閾值(即人耳能聽到的最低音量)，人耳仍然感覺不到。音頻壓縮就是利用這些特性來工作的。1，等響度曲線

人類聽覺的靈敏度隨著頻率而變化。也就是通常兩個功率相同但頻率不同的音調聽起來不壹樣。通過等響度曲線可以看出，人耳對4KHz的頻率最為敏感，即在4KHz可以檢測到的聲壓級(響度)在其他頻率下是檢測不到的。這為壹些不太敏感的頻率的失真提供了條件。

2.防護的

我們高中物理的時候學過屏蔽。是強音信號掩蓋了弱音信號，讓我們無法察覺。而且，當兩種聲音在時間和頻率上接近時，屏蔽作用會很強。所以我們在編碼的時候可以不編碼，也不傳輸屏蔽的部分。這樣音質還是沒有大的損失，人耳也不容易察覺。

3.臨界頻帶

對於人的聽覺來說，聲音的感知特性不是線性頻率改變的(人的聽覺沒有那麽好)，而是可以用壹系列有限的頻段來表示，這些頻段稱為臨界頻段。簡單來說，就是把整個頻段分成若幹段，在每個頻段內，人耳的聽覺感知是壹樣的，也就是心理聲學特性是壹樣的。

反正編碼的本質就是算法。1、MP3(MP3 pro \ MP3環繞)

MP3應該被認為是最廣泛使用的有損壓縮數字音頻格式。它的全稱是MPEG(運動圖像專家組)音頻層-3。1987德國弗勞恩霍夫研究所開發的壹種有損壓縮數字音頻格式，在1989獲得專利。壹開始並不完美，更像是壹個編碼標準框架，留給人們去完善。1992年，這項技術被納入MPEG規範，並被正式命名為——MP3。

MP3文件由幀組成，幀是MP3文件的最小組成單位。什麽是框架？還記得最初的動畫是怎麽制作的嗎？不同的連續畫面進行切換，達到動態效果，每壹個畫面都是壹個“幀”，但不同的是MP3中的幀記錄的是音頻數據，而不是圖形數據。MP3的幀率大概是每秒30幀。

每幀由幀頭和幀數據組成，幀頭記錄了幀的基本信息，包括比特率指標和采樣率指標(這對理解ABR和VBR編碼方法非常重要)。幀數據，顧名思義，就是記錄主要的音頻數據。

以上都是MP3編碼的基礎，但實際上早期的編碼器非常不完善，壓縮算法近乎粗糙，音質也不理想。MP3的音質有了兩個飛躍:感知模型的引入和VBR技術的應用。

PS: VBR是variableBitrate的縮寫，意思是可變比率，即MP3文件壓縮時，比率高時會自動降低壓縮碼率，碼率要求低時會自動提高碼率。這樣做的目的是提高文件在線播放的速度，減少本地播放時占用的系統資源...這是邢開發的算法，他對壹首歌的復雜部分進行高比特率編碼。想法雖好，但遺憾的是邢編碼器的算法很差，音質與CBR相差甚遠。幸運的是，Lame完美地優化了VBR算法，使其成為MP3的最佳編碼模式。這是壹種在保證質量的前提下兼顧文件大小的方式，推薦編碼方式。

MP3能存活至今，但它的發展並沒有停止。2006 54 38+0 6月14日，法國湯姆遜和美國RCA聯合推出了壹種新的壓縮格式:MP3PRO。MP3PRO是在MP3技術的基礎上改進而來，采用了CodingTechnologies公司開發的編解碼增強技術，這種技術被稱為SBR(SpectralBandReplication)。制作MP3PRO文件時，編碼器將音頻分為兩部分。壹部分是分離出音頻數據的低頻部分，通過傳統的MP3技術編碼得到正常的MP3音頻流。這使得MP3編碼器專註於低頻信號的壓縮，以獲得更好的質量，並使原來的MP3播放器能夠播放MP3PRO文件。另壹部分是對分離出的高頻信號進行編碼，嵌入到MP3流中。傳統的MP3播放器會忽略它，但新的MP3PRO播放器會還原它並結合它，以獲得高質量的全帶寬聲音。通過這項技術，MP3 Pro在64 kbps的編碼速率下，可以提供和MP3在128Kbps下壹樣的音質，音質幾乎壹樣，但體積只有MP3的壹半。

PSP支持MP3PRO，也有很多格式轉換軟件支持MP3PRO。妳可以在網上找他們。有興趣的話可以試試。肯定比mp3好。

湯姆遜公司於2004年2月初正式宣布全球最流行的音樂壓縮格式MP3進入多聲道時代。MP3SURROUND由FraunhoferIIS和Agere聯合開發，采用雙耳CueCoding(BCC)技術進行心理聲學編碼，可以實現多聲道環繞，同時保證文件大小。同時加入的AgereSystems主要負責推廣多聲道MP3格式——MP3環繞。MP3SURROUND技術實現了5.1聲道環繞的高品質音頻，應用範圍廣泛，可在網絡音樂分發、廣播系統、PC視聽應用、遊戲音頻、消費電子、汽車音響等方面發揮作用。雖然集成了多個聲道，但Thomson表示，MP3SURROUND文件與普通MP3(采樣率相當)相比並沒有太大的增加，只有其他環繞多聲道音頻格式的壹半。更重要的是，MP3SURROUND提供了良好的兼容性，可以在現有的MP3軟件和MP3播放器上正常使用。

2、AAC(*.3gp/*.mp4/*.m4a)

AAC是AdvancedAudioCoding的縮寫，由Fraunhofer Institute、Dolby和AT & amp；T***由同壹家公司開發。AAC是MPEG-2規範的壹部分，適用於8Kbps速率的單聲道電話音質到160Kbps的多聲道超高質量音頻範圍內的編碼。與MP3相比，AAC增加了壹些MP3音頻格式所沒有的特性，如立體聲的完美再現、比特流效果聲音的掃描、多媒體控制、降噪優化等。，使CD的音質在音頻壓縮後也能完美再現。它還支持多達48個音軌，15個低頻音軌，更多的采樣率和比特率，多語言兼容和更高的解碼效率。總之，AAC在比MP3文件小30%的前提下，可以提供更好的音質。

現在將解釋這些模塊中的壹些:

增益控制

增益控制模塊用於可變采樣率配置，由多相正交濾波器PQF(polyphasequaturefilter)、增益檢測器和增益調節器組成。該模塊將輸入信號分成四個帶寬相等的頻帶。解碼器中還有壹個增益控制模塊，通過忽略PQF的高頻子帶信號來獲得低采樣率輸出信號。

濾波器組(濾波器組)

濾波器組是將輸入信號從時域轉換到頻域的轉換模塊，是MPEG-2AAC系統的基本模塊。該模塊采用改進的離散余弦變換MDCT，這是壹種線性正交重疊變換，並使用壹種稱為時域混疊消除(TDAC)的技術。MDCT使用KBD(Kaiser-Besselderived)窗口或正弦窗口，正向MDCT變換可以用下面的公式表示:

MDCT逆變換可以由下面的公式表示:

其中，

N=樣本數量，

N=變換塊長度，

I=塊號，

以上兩個離散余弦變換公式在《離散函數與數學方程》中有詳細介紹，僅供有興趣的玩家理解，無需深究。

瞬時噪聲整形TNS

在感知聲音編碼中，TNS模塊是壹種控制量化噪聲瞬時形狀的方法，解決了掩蔽閾值與量化噪聲不匹配的問題。該技術的基本思想是時域的基音信號在頻域有壹個瞬時峰值。TNS利用這種雙重性來擴展已知的預測編碼技術，將量化噪聲置於實際信號之下，以避免錯誤匹配。

聯合立體聲編碼

Jointstereocoding是壹種空間編碼技術，其目的是去除冗余的空間信息。MPEG-2AAC系統包括兩種空間編碼技術:中間/側面編碼和強度/耦合。M/S編碼使用矩陣運算，所以M/S編碼稱為matrixedstereocoding。M/S編碼不傳輸左右聲道信號，而是使用歸壹化的“和”信號和“差”信號。前者用於中央M(中)聲道，後者用於側S(側)聲道，因此M/S編碼也稱為“和差編碼”。聲音強度/耦合編碼有很多名稱，其中壹些稱為intensitystereocoding或channelcouplingcoding。他們探討的基本問題是渠道之間的不相關。

預測(預測)

這是語音編碼系統中廣泛使用的技術，主要用於減少平穩信號的冗余。

量化器(量化器)

使用了非均勻量化器。

無噪聲編碼(無噪聲編碼)

無噪編碼其實就是霍夫曼編碼，對量化後的頻譜系數、比例因子和方向信息進行編碼。

PS:我個人比較喜歡AAC，所以寫的比較詳細。妳不妨試壹試。肯定比MP3好。可以用iTunes6轉換AAC(*.m4a)。iTunes6AAC的操作非常簡單。可以直接把AAC(*.3gp\*.mp4\*.m4a)復制到[音樂]中播放。

可以說aac是目前最好的有損壓縮方法。

最高品質的pu(肉眼)無損傷不可分辨。

3、ATRAC3/ATRAC3+(*.aa3)

早年玩過MD的朋友都知道，索尼為MD量身定制的ATRAC音頻格式算法已經廣泛應用於索尼的NetworkWalkman等便攜式音頻設備中。“ATRAC3plus”代表“自適應語音編碼3+”，是壹套基於心理聲學原理的音頻壓縮技術，由ATRAC3格式發展而來，這項技術在2002年日趨完善。這項技術是將MD Walkman的體積縮小到極小的理論基礎。

分析ATRAC3/ATRAC3+，首先要說說它的老大哥——ATRAC算法。壓縮數字音頻數據時，通常會在信號中引入壹定量的量化噪聲。為了防止這些信號被人耳察覺，通常的做法是音頻編碼將信號分解成壹組單元，每個單元對應壹個特定的時頻範圍。編碼器會根據上面提到的心理聲學原理進行分析，對重要單元進行高精度編碼。對於不敏感單元，在不影響人耳感知質量的情況下，可以保留壹些量化噪聲。解碼時會根據比特分配重新建立量化頻譜，然後合成音頻信號。

ATRAC也不例外，但是也有壹些改進。ATRAC還應用了子帶解碼和轉換解碼技術，輸入信號以強調重要低音區域的不均勻分頻進行分配。另外，ATRAC采用可變塊長來改變輸入信號，在穩定通過時可以保證高效解碼，在瞬間通過時不會影響時間分辨率。具體來說，將輸入信號分為5.5125KHz和11.025KHz三個頻段，子帶的分解由QMF(QuadratureMirrorFilters Integral Mapping Filter)完成。這三個頻帶由MDCT(改進的軟盤余弦變換)離散余弦變換索引-類似於通常的快速傅立葉變換，其在高等數學II和數學方程中介紹。)轉換成頻譜值，MDCT允許塊之間有50%的重疊，從而可以在保持臨界采樣的同時提高頻率分辨率。可以根據信號的種類改變塊的長度，這是ATRAC的自適應部分(這主要是用掩蔽來掩蔽初始的量化噪聲)。

當ATRAC算法已經發展了10年，已經不能滿足市場需求，索尼在2002年8月推出了新算法——

ATRAC3/ATRAC3+.與ATRAC相比，其核心算法沒有本質變化，但采用了改進的帶分離濾波和MDCT，並使用增益調整、音調分量分離、聯合立體聲等技術，進壹步降低了音頻壓縮數據量。

4、AAL(ATRACAdvancedLossless)

AAL是ATRACAdvancedLossless coding(自適應聲學轉換)的縮寫，是索尼新開發的壹種音頻壓縮格式。它的特點是無損壓縮，不丟失任何音頻信息，壹張CD可以壓縮到原來的30%-80%。

5、奧格

Ogg的全稱應該是OGG·沃比斯(ogg Vorbis)，這是壹種新的音頻壓縮格式，類似於MP3等現有的音樂格式。但有壹點不同的是，它是完全免費的，開放的，沒有專利限制。OGG Vobis有壹個突出的特點，就是支持多通道。隨著它的普及，以後用walkman聽DTS編碼的多聲道作品將不是夢。

Vorbis是這個音頻壓縮機制的名字，而Ogg是壹個項目的名字，打算設計壹個完全開放的多媒體系統。

Ogg Vorbis文件的擴展名是。OGG。這個文件的設計格式很高級。創建的OGG文件可以在任何播放器上播放，因此文件格式可以在大小和聲音質量方面不斷改進，而不會影響舊的編碼器或播放器。

與aac相比，低頻略占優勢，高頻稍差。

最高品質的pu(肉眼)無損傷不可分辨。

最高質量，即Q10，幾乎是aac使用faac編碼的最高質量Q500的兩倍。

編碼是開源的。

上一篇:銀行卡安全支付小知識

下一篇:怎麽申請美國發明專利？申請美國發明專利需要什麽材料？

獲得專利金獎

櫥櫃保養需要註意哪些事項

計算機八大常用硬件得發展史

廣州旅遊有哪些公司？廣州哪裏可以適合企業旅遊？

戶外EDC裝備有哪些？

DMC是什麽意思

創業園區：包頭稀土高新區打好人才引進組合拳