我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何正确理解霍夫曼编码

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何正确理解霍夫曼编码

这篇文章主要讲解了“如何正确理解霍夫曼编码”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何正确理解霍夫曼编码”吧!

说实话,很早之前我就听说过霍夫曼编码,除了知道它通常用于 GZIP、BZIP2、PKZIP  这些常规的压缩格式中,我还知道它通常用于压缩重复率比较高的字符数据。

大家想啊,英文就 26 个字母进行的无限组合,重复率高得一逼啊!常用的汉字也不多,2500 个左右,别问我怎么知道的,我有问过搜索引擎的。

字符重复的频率越高,霍夫曼编码的工作效率就越高!

是时候,和大家一起来了解一下霍夫曼编码的工作原理啦,毕竟一名优秀的程序员要能做到知其然知其所以然——请允许我又用了一次这句快用臭了话。

假设下面的字符串要通过网络发送。

如何正确理解霍夫曼编码

大家应该知道,每个字符占 8 个比特,上面这串字符总共有 15 个字符,所以一共要占用 15*8=120  个比特。没有疑问吧?有疑问的同学请不好意思下。

如果我们使用霍夫曼编码的话,就可以将这串字符压缩到一个更小的尺寸。怎么做到的呢?

霍夫曼编码首先会使用字符的频率创建一棵树,然后通过这个树的结构为每个字符生成一个特定的编码,出现频率高的字符使用较短的编码,出现频率低的则使用较长的编码,这样就会使编码之后的字符串平均长度降低,从而达到数据无损压缩的目的。

拿上面这串初始字符来一步步的说明下霍夫曼编码的工作步骤。

第一步,计算字符串中每个字符的频率。

如何正确理解霍夫曼编码

B 出现 1 次,C 出现 6 次,A 出现 5 次,D 出现 3 次。

第二步,按照字符出现的频率进行排序,组成一个队列 Q。

如何正确理解霍夫曼编码

出现频率最低的在前面,出现频率高的在后面。

第三步,把这些字符作为叶子节点开始构建一颗树。首先创建一个空节点 z,将最小频率的字符分配给 z 的左侧,并将频率排在第二位的分配给 z 的右侧,然后将  z 赋值为两个字符频率的和。

如何正确理解霍夫曼编码

B 的频率最小,所以在左侧,然后是频率为 3 的 D,在右侧;然后把它们的父节点的值设为 4,子节点的频率之和。

然后从队列 Q 中删除 B 和 D,并将它们的和添加到队列中,上图中 * 表示的位置。紧接着,重新创建一个空的节点 z,并将 4 作为左侧的节点,频率为  5 的 A 作为右侧的节点,4 与 5 的和作为父节点。

如何正确理解霍夫曼编码

继续按照之前的思路构建树,直到所有的字符都出现在树的节点中。

如何正确理解霍夫曼编码

第四步,对于每个非叶子节点,将 0 分配给连接线的左侧,1  分配给连接线的右侧。此时,霍夫曼树就构建完成了。霍夫曼树又称为最优二叉树,是一种带权路径长度最短的二叉树。

如何正确理解霍夫曼编码

当树构建完毕后,我们来统计一下要发送的比特数。

如何正确理解霍夫曼编码

1)来看字符这一列。四个字符 A、B、C、D 共计 4*8=32 比特。每个英文字母均占用一个字节,即 8 个比特。

2)来看频率这一列。A 5 次,B 1 次,C 6 次,D 3 次,一共 15 比特。

3)来看编码这一列。A 的编码为 11,对应霍夫曼树上的 15→9→5,也就是说,从根节点走到叶子节点 A,需要经过 11 这条路径;对应的 B 需要走过  100 这条路径;对应的 D 需要走过 101 这条路径;对应的 C 需要走过 0 这条路径。

4)来看长度这一列。A 的编码为 11,出现了 5 次,因此占用 10 个比特,即 1111111111;B 的编码为 100,出现了 1 次,因此占用  3 个比特,即 100;C 的编码为 0,出现了 6 次,因此占用 6 个比特,即 000000;D 的编码为 101,出现了 3 次,因此占用 9 个比特,即  101101101。

哈夫曼编码从本质上讲,是将最宝贵的资源(最短的编码)给出现概率最多的数据。在上面的例子中,C 出现的频率最高,它的编码为 0,就省下了不少空间。

结合生活中的一些情况想一下,也是这样,我们把最常用的放在手边,这样就能提高效率,节约时间。所以,我有一个大胆的猜想,霍夫曼就是这样发现编码的最优解的。

在没有经过霍夫曼编码之前,字符串“BCAADDDCCACACAC”的二进制为:

10000100100001101000001010000010100010001000100010001000100001101000011010000010100001101000001010000110100000101000011

也就是占了 120 比特。

编码之后为:

0000001001011011011111111111

占了 28 比特。

但考虑到解码,需要把霍夫曼树的结构也传递过去,于是字符占用的 32 比特和频率占用的 15 比特也需要传递过去。总体上,编码后比特数为 32 + 15 +  28 = 75,比 120 比特少了 45 个,效率还是非常高的。

关于霍夫曼编码的 Java 示例,我在这里也贴出来一下,供大家参考。

class HuffmanNode {     int item;     char c;     HuffmanNode left;     HuffmanNode right; }  class ImplementComparator implements Comparator<HuffmanNode> {     public int compare(HuffmanNode x, HuffmanNode y) {         return x.item - y.item;     } }  public class Huffman {     public static void printCode(HuffmanNode root, String s) {         if (root.left == null && root.right == null && Character.isLetter(root.c)) {              System.out.println(root.c + "   |  " + s);              return;         }         printCode(root.left, s + "0");         printCode(root.right, s + "1");     }      public static void main(String[] args) {         int n = 4;         char[] charArray = { 'A', 'B', 'C', 'D' };         int[] charfreq = { 5, 1, 6, 3 };          PriorityQueue<HuffmanNode> q = new PriorityQueue<HuffmanNode>(n, new ImplementComparator());          for (int i = 0; i < n; i++) {             HuffmanNode hn = new HuffmanNode();              hn.c = charArray[i];             hn.item = charfreq[i];              hn.left = null;             hn.right = null;              q.add(hn);         }          HuffmanNode root = null;          while (q.size() > 1) {              HuffmanNode x = q.peek();             q.poll();              HuffmanNode y = q.peek();             q.poll();              HuffmanNode f = new HuffmanNode();              f.item = x.item + y.item;             f.c = '-';             f.left = x;             f.right = y;             root = f;              q.add(f);         }         System.out.println(" 字符 | 霍夫曼编码 ");         System.out.println("--------------------");         printCode(root, "");     } }

本例的输出结果如下所示:

字符 | 霍夫曼编码  -------------------- C   |  0 B   |  100 D   |  101 A   |  11

感谢各位的阅读,以上就是“如何正确理解霍夫曼编码”的内容了,经过本文的学习后,相信大家对如何正确理解霍夫曼编码这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何正确理解霍夫曼编码

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何正确使用Git管理代码

这篇文章主要讲解了“如何正确使用Git管理代码”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何正确使用Git管理代码”吧!使用场景团队协同开发时,生产环境出现bug,需要紧急修复。每位同学
2023-07-02

如何正确理解python装饰器

目录一、闭包二、装饰器三、带参数的装饰器四、类装饰器一、闭包 要想了解装饰器,首先要了解一个概念,闭包。什么是闭包,一句话说就是,在函数中再嵌套一个函数,并且引用外部函数的变量,这就是一个闭包了。光说没有概念,直接上一个例子。def out
2022-06-02

C++框架该如何正确理解

本篇文章为大家展示了C++框架该如何正确理解,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。C++编程语言中,有很多比较重要的内容值得我们去深入研究。这些基础内容的理解不但能帮助我们掌握C++,而且还
2023-06-17

如何正确理解免费建站

这篇文章主要讲解了“如何正确理解免费建站”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何正确理解免费建站”吧!  虽然现在搞互联网都需要烧钱,但是也有一些人希望不需要投入很多钱就能够让自己
2023-06-10

如何正确的理解Java中的继承

本篇文章为大家展示了如何正确的理解Java中的继承,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。Java作为一面向对象的语言,具备面向对象的三大特征——继承,多态,封装。继承顾名思义,继任,承接,传
2023-05-31

win10安全模式密码不正确如何解决

这篇“win10安全模式密码不正确如何解决”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“win10安全模式密码不正确如何解决
2023-06-30

如何正确理解PHP中的值传递方式

如何正确理解PHP中的值传递方式PHP是一种广泛应用于Web开发的脚本语言,而在PHP中的参数传递方式主要有值传递和引用传递两种。而理解PHP中的值传递方式对于编写高效的代码至关重要。本文将详细讨论PHP中的值传递方式,并通过具体的代码示
如何正确理解PHP中的值传递方式
2024-03-08

如何使用包含 C 代码的包正确编译 Golang 项目

问题内容我开始用 Golang 编写一个项目,但立即遇到了问题。我需要从我的代码连接到硬件,我有一个驱动程序和一个供应商提供的 Golang 包装器。包装器连接的描述说需要将代码放在项目的 src 目录中(我不使用这样的目录,但我将文件按
如何使用包含 C 代码的包正确编译 Golang 项目
2024-02-06

如何解决win10密码正确但是显示错误问题

小编给大家分享一下如何解决win10密码正确但是显示错误问题,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!win10密码正确但是显示错误的解决办法:1、测试一下注册的微软账号是否能够正确登录;2、检查一下电脑是否联网;3、
2023-06-14

win10安全模式密码不正确死循环如何解决

本文小编为大家详细介绍“win10安全模式密码不正确死循环如何解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“win10安全模式密码不正确死循环如何解决”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。win10
2023-06-30

编程热搜

目录