網(wǎng)絡(luò )高效安全數據傳輸方法設計
2哈夫曼編碼介紹
本文引用地址:http://dyxdggzs.com/article/272396.htm哈夫曼編碼是20世紀50年代由哈夫曼教授研制開(kāi)發(fā)的,它借助了數據結構當中的樹(shù)型結構,在哈夫曼算法的支持下構造出一棵最優(yōu)二叉樹(shù),把這類(lèi)樹(shù)命名為哈夫曼樹(shù)。因此,準確地說(shuō),哈夫曼編碼是在哈夫曼樹(shù)的基礎之上構造出來(lái)的一種編碼形式,它的本身有著(zhù)非常廣泛的應用。
2.1基本原理
數據能夠被壓縮的理論依據如下:
定義1對于給定的信源和碼符號集,若有一個(gè)惟一可譯碼,其平均碼長(cháng)L小于所有其他惟一可譯碼,則稱(chēng)這種碼為緊致碼或最佳碼。
定理1哈夫曼編碼是緊致碼。
計算機文件是以字節為單位組成的,每個(gè)字節的取值為O~255.每個(gè)字節都看成字符,共256種字符。因此,每個(gè)字節都是以8個(gè)二進(jìn)制位的定長(cháng)編碼表示的。由于這種定長(cháng)碼也是惟一可譯碼,根據定理1有L≤8.
設某個(gè)文件有N個(gè)字節組成,則該文件總長(cháng)度為8N比特。如果對該文件進(jìn)行哈夫曼編碼,則該文件總長(cháng)度為L(cháng)N比特。由于L≤8,所以L(fǎng)N≤8。所以,只要文件滿(mǎn)足L<8,用哈夫曼編碼總可以對其壓縮。
哈夫曼編碼是一種變長(cháng)編碼,即通過(guò)使用較短的碼字來(lái)給出現概率較高的信源符號編碼,而出現概率較小的信源符號用較長(cháng)的碼字來(lái)編碼,從而使平均碼長(cháng)最短,達到最佳編碼的目的。由于哈夫曼編碼只能對概率已知的信源符號編碼,因此是一種統計編碼。
2.2 構造哈夫曼編碼表
獲得一個(gè)文件的哈夫曼編碼表是該文件獲得壓縮與解壓的關(guān)鍵。設某個(gè)文件中含有q種字符S1,S2,…,Sq,并且統計出每種字符在文件中出現的概率分別為p(S1),p(S2),…,p(Sq),則編碼的具體方法如下:
(1)將q個(gè)信源符號按概率大小遞減排列p(S1)≥p(S2)≥…≥p(Sq);
(2)用字符‘O’和‘1’分別代表概率最小的2個(gè)信源符號,并將這2個(gè)概率最小的信源符號合并成1個(gè)信源符號,從而得到只包含q-1個(gè)符號的新信源,稱(chēng)為縮減信源S1;
(3)把縮減信源S1的符號仍按概率大小遞減次序排列,再將其最后兩個(gè)概率最小的信源符號分別用字符‘O’和‘1’表示,并且合并成一個(gè)符號,這樣又形成了q-2個(gè)信源符號的縮減信源S2;
(4)依次繼續下去,直至信源最后只剩下兩個(gè)信源符號為止,將這最后兩個(gè)信源符號分別用字符‘O’和‘1’表示;
(5)然后從最后一級縮減信源開(kāi)始,進(jìn)行回推就得到每種字符所對應的由字符‘O’和‘1’組成的字符串序列,不妨將其稱(chēng)為偽碼字。
這樣,就為需要壓縮的文件建立了一個(gè)一一映射f:Si→ci=1,2,…,q。式中:Si代表不同的字符,ci代表對應字符Si的偽碼字。
為了將偽碼字變成真正的碼字,又必須建立一個(gè)映射g:ci→ω,i=1,2,…,q。式中:ci代表不同的字符,(ωi代表對應字符ci的碼字。該映射g 的功能是將由字符串組成的偽碼字變成二進(jìn)制數,比如g(010110)=(010110)2=(22)10。從而g[f(Si)],i=1,2,…,q,就是構造的哈夫曼編碼表。
2.3 文件壓縮過(guò)程
每從文件中讀出一個(gè)字符char,用查哈夫曼編碼表的方式得到對應的碼字,然后用這個(gè)碼字替換相應的字符g[f(char)]。當文件中的所有字符都經(jīng)過(guò)了碼字替換,則得到一個(gè)比原文件要小的壓縮文件。文件之所以能夠被壓縮,是因為每個(gè)字符都占8個(gè)二進(jìn)制位的空間。然而,通過(guò)碼字替換相應的字符后,有的碼字比相應的字符的碼長(cháng)要短,有的碼字比相應的字符的碼長(cháng)要長(cháng),但文件在被壓縮后總的長(cháng)度比原來(lái)要短。
2.4 文件解壓過(guò)程
文件的解壓過(guò)程是文件的壓縮過(guò)程的逆過(guò)程,即將一個(gè)壓縮文件還原成它的本來(lái)面目。因為一個(gè)壓縮文件是不能夠直接使用的,只有被解壓后才能使用。一個(gè)被壓縮的文件如果不能被解壓,則這種壓縮是毫無(wú)意義的。
哈夫曼編碼是即時(shí)碼,只要得到碼字c,則經(jīng)查哈夫曼編碼表得到相應字符f-1(g-1(c)),用這個(gè)字符替換相應的碼字就是還原的過(guò)程。因此,每從壓縮文件中讀出一個(gè)碼字,就從哈夫曼編碼表查得相應的字符替換,當文件中所有的碼字被替換掉,這個(gè)解壓過(guò)程也就完成了。
評論