當前位置:律師網大全 - 專利申請 - 有損壓縮的常見格式

有損壓縮的常見格式

——MP3(MP3PRO\MP3SURROUND)、AAC(*.3gp/*.mp4/*.m4a)、ATRAC3/ATRAC3+(*.aa3)。

我們先來了解壹下音頻壓縮的原理:利用人類聽覺的心理聲學特性(頻譜掩蔽特性和時間掩蔽特性等。)和人耳對信號幅度、頻率、時間的有限分辨能力,所有人耳感覺不到的頻率都不進行編碼或傳輸,即所有對人耳分辨聲音信號的強度、音調、方位沒有貢獻的部分(稱為無關部分或不相關部分)都不進行編碼和傳輸。對感覺不到的部分進行編碼時,允許有較大的量化失真,並使其低於聽覺閾值(即人耳能聽到的最低音量),人耳仍然感覺不到。音頻壓縮就是利用這些特性來工作的。1,等響度曲線

人類聽覺的靈敏度隨著頻率而變化。也就是通常兩個功率相同但頻率不同的音調聽起來不壹樣。通過等響度曲線可以看出,人耳對4KHz的頻率最為敏感,即在4KHz可以檢測到的聲壓級(響度)在其他頻率下是檢測不到的。這為壹些不太敏感的頻率的失真提供了條件。

2.防護的

我們高中物理的時候學過屏蔽。是強音信號掩蓋了弱音信號,讓我們無法察覺。而且,當兩種聲音在時間和頻率上接近時,屏蔽作用會很強。所以我們在編碼的時候可以不編碼,也不傳輸屏蔽的部分。這樣音質還是沒有大的損失,人耳也不容易察覺。

3.臨界頻帶

對於人的聽覺來說,聲音的感知特性不是線性頻率改變的(人的聽覺沒有那麽好),而是可以用壹系列有限的頻段來表示,這些頻段稱為臨界頻段。簡單來說,就是把整個頻段分成若幹段,在每個頻段內,人耳的聽覺感知是壹樣的,也就是心理聲學特性是壹樣的。

反正編碼的本質就是算法。1、MP3(MP3 pro \ MP3環繞)

MP3應該被認為是最廣泛使用的有損壓縮數字音頻格式。它的全稱是MPEG(運動圖像專家組)音頻層-3。1987德國弗勞恩霍夫研究所開發的壹種有損壓縮數字音頻格式,在1989獲得專利。壹開始並不完美,更像是壹個編碼標準框架,留給人們去完善。1992年,這項技術被納入MPEG規範,並被正式命名為——MP3。

MP3文件由幀組成,幀是MP3文件的最小組成單位。什麽是框架?還記得最初的動畫是怎麽制作的嗎?不同的連續畫面進行切換,達到動態效果,每壹個畫面都是壹個“幀”,但不同的是MP3中的幀記錄的是音頻數據,而不是圖形數據。MP3的幀率大概是每秒30幀。

每幀由幀頭和幀數據組成,幀頭記錄了幀的基本信息,包括比特率指標和采樣率指標(這對理解ABR和VBR編碼方法非常重要)。幀數據,顧名思義,就是記錄主要的音頻數據。

以上都是MP3編碼的基礎,但實際上早期的編碼器非常不完善,壓縮算法近乎粗糙,音質也不理想。MP3的音質有了兩個飛躍:感知模型的引入和VBR技術的應用。

PS: VBR是variableBitrate的縮寫,意思是可變比率,即MP3文件壓縮時,比率高時會自動降低壓縮碼率,碼率要求低時會自動提高碼率。這樣做的目的是提高文件在線播放的速度,減少本地播放時占用的系統資源...這是邢開發的算法,他對壹首歌的復雜部分進行高比特率編碼。想法雖好,但遺憾的是邢編碼器的算法很差,音質與CBR相差甚遠。幸運的是,Lame完美地優化了VBR算法,使其成為MP3的最佳編碼模式。這是壹種在保證質量的前提下兼顧文件大小的方式,推薦編碼方式。

MP3能存活至今,但它的發展並沒有停止。2006 54 38+0 6月14日,法國湯姆遜和美國RCA聯合推出了壹種新的壓縮格式:MP3PRO。MP3PRO是在MP3技術的基礎上改進而來,采用了CodingTechnologies公司開發的編解碼增強技術,這種技術被稱為SBR(SpectralBandReplication)。制作MP3PRO文件時,編碼器將音頻分為兩部分。壹部分是分離出音頻數據的低頻部分,通過傳統的MP3技術編碼得到正常的MP3音頻流。這使得MP3編碼器專註於低頻信號的壓縮,以獲得更好的質量,並使原來的MP3播放器能夠播放MP3PRO文件。另壹部分是對分離出的高頻信號進行編碼,嵌入到MP3流中。傳統的MP3播放器會忽略它,但新的MP3PRO播放器會還原它並結合它,以獲得高質量的全帶寬聲音。通過這項技術,MP3 Pro在64 kbps的編碼速率下,可以提供和MP3在128Kbps下壹樣的音質,音質幾乎壹樣,但體積只有MP3的壹半。

PSP支持MP3PRO,也有很多格式轉換軟件支持MP3PRO。妳可以在網上找他們。有興趣的話可以試試。肯定比mp3好。

湯姆遜公司於2004年2月初正式宣布全球最流行的音樂壓縮格式MP3進入多聲道時代。MP3SURROUND由FraunhoferIIS和Agere聯合開發,采用雙耳CueCoding(BCC)技術進行心理聲學編碼,可以實現多聲道環繞,同時保證文件大小。同時加入的AgereSystems主要負責推廣多聲道MP3格式——MP3環繞。MP3SURROUND技術實現了5.1聲道環繞的高品質音頻,應用範圍廣泛,可在網絡音樂分發、廣播系統、PC視聽應用、遊戲音頻、消費電子、汽車音響等方面發揮作用。雖然集成了多個聲道,但Thomson表示,MP3SURROUND文件與普通MP3(采樣率相當)相比並沒有太大的增加,只有其他環繞多聲道音頻格式的壹半。更重要的是,MP3SURROUND提供了良好的兼容性,可以在現有的MP3軟件和MP3播放器上正常使用。

2、AAC(*.3gp/*.mp4/*.m4a)

AAC是AdvancedAudioCoding的縮寫,由Fraunhofer Institute、Dolby和AT & amp;T***由同壹家公司開發。AAC是MPEG-2規範的壹部分,適用於8Kbps速率的單聲道電話音質到160Kbps的多聲道超高質量音頻範圍內的編碼。與MP3相比,AAC增加了壹些MP3音頻格式所沒有的特性,如立體聲的完美再現、比特流效果聲音的掃描、多媒體控制、降噪優化等。,使CD的音質在音頻壓縮後也能完美再現。它還支持多達48個音軌,15個低頻音軌,更多的采樣率和比特率,多語言兼容和更高的解碼效率。總之,AAC在比MP3文件小30%的前提下,可以提供更好的音質。

現在將解釋這些模塊中的壹些:

增益控制

增益控制模塊用於可變采樣率配置,由多相正交濾波器PQF(polyphasequaturefilter)、增益檢測器和增益調節器組成。該模塊將輸入信號分成四個帶寬相等的頻帶。解碼器中還有壹個增益控制模塊,通過忽略PQF的高頻子帶信號來獲得低采樣率輸出信號。

濾波器組(濾波器組)

濾波器組是將輸入信號從時域轉換到頻域的轉換模塊,是MPEG-2AAC系統的基本模塊。該模塊采用改進的離散余弦變換MDCT,這是壹種線性正交重疊變換,並使用壹種稱為時域混疊消除(TDAC)的技術。MDCT使用KBD(Kaiser-Besselderived)窗口或正弦窗口,正向MDCT變換可以用下面的公式表示:

MDCT逆變換可以由下面的公式表示:

其中,

N=樣本數量,

N=變換塊長度,

I=塊號,

以上兩個離散余弦變換公式在《離散函數與數學方程》中有詳細介紹,僅供有興趣的玩家理解,無需深究。

瞬時噪聲整形TNS

在感知聲音編碼中,TNS模塊是壹種控制量化噪聲瞬時形狀的方法,解決了掩蔽閾值與量化噪聲不匹配的問題。該技術的基本思想是時域的基音信號在頻域有壹個瞬時峰值。TNS利用這種雙重性來擴展已知的預測編碼技術,將量化噪聲置於實際信號之下,以避免錯誤匹配。

聯合立體聲編碼

Jointstereocoding是壹種空間編碼技術,其目的是去除冗余的空間信息。MPEG-2AAC系統包括兩種空間編碼技術:中間/側面編碼和強度/耦合。M/S編碼使用矩陣運算,所以M/S編碼稱為matrixedstereocoding。M/S編碼不傳輸左右聲道信號,而是使用歸壹化的“和”信號和“差”信號。前者用於中央M(中)聲道,後者用於側S(側)聲道,因此M/S編碼也稱為“和差編碼”。聲音強度/耦合編碼有很多名稱,其中壹些稱為intensitystereocoding或channelcouplingcoding。他們探討的基本問題是渠道之間的不相關。

預測(預測)

這是語音編碼系統中廣泛使用的技術,主要用於減少平穩信號的冗余。

量化器(量化器)

使用了非均勻量化器。

無噪聲編碼(無噪聲編碼)

無噪編碼其實就是霍夫曼編碼,對量化後的頻譜系數、比例因子和方向信息進行編碼。

PS:我個人比較喜歡AAC,所以寫的比較詳細。妳不妨試壹試。肯定比MP3好。可以用iTunes6轉換AAC(*.m4a)。iTunes6AAC的操作非常簡單。可以直接把AAC(*.3gp\*.mp4\*.m4a)復制到[音樂]中播放。

可以說aac是目前最好的有損壓縮方法。

最高品質的pu(肉眼)無損傷不可分辨。

3、ATRAC3/ATRAC3+(*.aa3)

早年玩過MD的朋友都知道,索尼為MD量身定制的ATRAC音頻格式算法已經廣泛應用於索尼的NetworkWalkman等便攜式音頻設備中。“ATRAC3plus”代表“自適應語音編碼3+”,是壹套基於心理聲學原理的音頻壓縮技術,由ATRAC3格式發展而來,這項技術在2002年日趨完善。這項技術是將MD Walkman的體積縮小到極小的理論基礎。

分析ATRAC3/ATRAC3+,首先要說說它的老大哥——ATRAC算法。壓縮數字音頻數據時,通常會在信號中引入壹定量的量化噪聲。為了防止這些信號被人耳察覺,通常的做法是音頻編碼將信號分解成壹組單元,每個單元對應壹個特定的時頻範圍。編碼器會根據上面提到的心理聲學原理進行分析,對重要單元進行高精度編碼。對於不敏感單元,在不影響人耳感知質量的情況下,可以保留壹些量化噪聲。解碼時會根據比特分配重新建立量化頻譜,然後合成音頻信號。

ATRAC也不例外,但是也有壹些改進。ATRAC還應用了子帶解碼和轉換解碼技術,輸入信號以強調重要低音區域的不均勻分頻進行分配。另外,ATRAC采用可變塊長來改變輸入信號,在穩定通過時可以保證高效解碼,在瞬間通過時不會影響時間分辨率。具體來說,將輸入信號分為5.5125KHz和11.025KHz三個頻段,子帶的分解由QMF(QuadratureMirrorFilters Integral Mapping Filter)完成。這三個頻帶由MDCT(改進的軟盤余弦變換)離散余弦變換索引-類似於通常的快速傅立葉變換,其在高等數學II和數學方程中介紹。)轉換成頻譜值,MDCT允許塊之間有50%的重疊,從而可以在保持臨界采樣的同時提高頻率分辨率。可以根據信號的種類改變塊的長度,這是ATRAC的自適應部分(這主要是用掩蔽來掩蔽初始的量化噪聲)。

當ATRAC算法已經發展了10年,已經不能滿足市場需求,索尼在2002年8月推出了新算法——

ATRAC3/ATRAC3+.與ATRAC相比,其核心算法沒有本質變化,但采用了改進的帶分離濾波和MDCT,並使用增益調整、音調分量分離、聯合立體聲等技術,進壹步降低了音頻壓縮數據量。

4、AAL(ATRACAdvancedLossless)

AAL是ATRACAdvancedLossless coding(自適應聲學轉換)的縮寫,是索尼新開發的壹種音頻壓縮格式。它的特點是無損壓縮,不丟失任何音頻信息,壹張CD可以壓縮到原來的30%-80%。

5、奧格

Ogg的全稱應該是OGG·沃比斯(ogg Vorbis),這是壹種新的音頻壓縮格式,類似於MP3等現有的音樂格式。但有壹點不同的是,它是完全免費的,開放的,沒有專利限制。OGG Vobis有壹個突出的特點,就是支持多通道。隨著它的普及,以後用walkman聽DTS編碼的多聲道作品將不是夢。

Vorbis是這個音頻壓縮機制的名字,而Ogg是壹個項目的名字,打算設計壹個完全開放的多媒體系統。

Ogg Vorbis文件的擴展名是。OGG。這個文件的設計格式很高級。創建的OGG文件可以在任何播放器上播放,因此文件格式可以在大小和聲音質量方面不斷改進,而不會影響舊的編碼器或播放器。

與aac相比,低頻略占優勢,高頻稍差。

最高品質的pu(肉眼)無損傷不可分辨。

最高質量,即Q10,幾乎是aac使用faac編碼的最高質量Q500的兩倍。

編碼是開源的。

  • 上一篇:銀行卡安全支付小知識
  • 下一篇:怎麽申請美國發明專利?申請美國發明專利需要什麽材料?
  • copyright 2024律師網大全