位置：首页-资讯-后端开发

什么是布隆过滤器？如何实现布隆过滤器？

2024-11-30 03:23

短信预约 -IT技能 免费直播动态提醒

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，用于判断一个元素是否在一个集合中。它基于位数组和多个哈希函数的原理，可以高效地进行元素的查询，而且占用的空间相对较小，如下图所示：

根据 key 值计算出它的存储位置，然后将此位置标识全部标识为 1（未存放数据的位置全部为 0），查询时也是查询对应的位置是否全部为 1，如果全部为 1，则说明数据是可能存在的，否则一定不存在。

也就是说，如果布隆过滤器说一个元素不在集合中，那么它一定不在这个集合中；但如果它说一个元素在集合中，则有可能是不存在的（存在误差）。

1、布隆执行过程

布隆过滤器的具体执行步骤如下：

在 Redis 中创建一个位数组，用于存储布隆过滤器的位向量。
初始化多个哈希函数，并将每个哈希函数的计算结果对应的位数组位置设置为 1。
添加元素到布隆过滤器时，对元素进行多次哈希计算，并将对应的位数组位置设置为 1。
查询元素是否存在时，对元素进行多次哈希计算，并检查对应的位数组位置是否都为 1。

2、布隆使用场景

布隆过滤器的主要使用场景有以下几个：

大数据量去重：可以用布隆过滤器来进行数据去重，判断一个数据是否已经存在，避免重复插入。
缓存穿透：可以用布隆过滤器来过滤掉恶意请求或请求不存在的数据，避免对后端存储的频繁访问。
网络爬虫的 URL 去重：可以用布隆过滤器来判断 URL 是否已经被爬取，避免重复爬取。

3、如何实现布隆过滤器？

在 Redis 中不能直接使用布隆过滤器，但我们可以通过 Redis 4.0 版本之后提供的 modules (扩展模块) 的方式引入，它的实现步骤如下。

（1）打包RedisBloom插件

“
git clone https://github.com/RedisLabsModules/redisbloom.git
cd redisbloom
make # 编译redisbloom
”

编译正常执行完，会在根目录生成一个 redisbloom.so 文件。

（2）启用RedisBloom插件

重新启动 Redis 服务，并指定启动 RedisBloom 插件，具体命令如下：

“
redis-server redis.conf --loadmodule ./class="lazy" data-src/modules/RedisBloom-master/redisbloom.so
”

（3）创建布隆过滤器

创建一个布隆过滤器，并设置期望插入的元素数量和误差率，在 Redis 客户端中输入以下命令：

“
BF.RESERVE my_bloom_filter 0.01 100000
”

（4）添加元素到布隆过滤器

在 Redis 客户端中输入以下命令：

“
BF.ADD my_bloom_filter leige
”

（5）检查元素是否存在

在 Redis 客户端中输入以下命令：

“
BF.EXISTS my_bloom_filter leige
”

课后思考

以上我们介绍了什么是布隆过滤器？它的使用场景和执行流程，以及在 Redis 中它的使用，那么问题来了，在日常开发中，也就是在 Java 开发中，我们又将如何操作布隆过滤器呢？

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

隆过滤器数据结构哈希函数

来源：Java中文社群内容投诉

什么是布隆过滤器？如何实现布隆过滤器？

下载Word文档到电脑，方便收藏和打印～

下载Word文档

编程热搜

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译