我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Java布隆过滤器的原理和实现分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Java布隆过滤器的原理和实现分析

前言

数组、链表、树等数据结构会存储元素的内容,一旦数据量过大,消耗的内存也会呈现线性增长

所以布隆过滤器是为了解决数据量大的一种数据结构

讲述布隆过滤器的时候需要了解一些预备的知识点:比如哈希函数

1. 预备知识

1.1 哈希函数

哈希函数指将哈希表中元素的关键键值映射为元素存储位置的函数

一般的线性表,树中,记录在结构中的相对位置是随机的,即和记录的关键字之间不存在确定的关系,因此,在结构中查找记录时需进行一系列和关键字的比较。这一类查找方法建立在“比较“的基础上,查找的效率依赖于查找过程中所进行的比较次数。 理想的情况是能直接找到需要的记录,因此必须在记录的存储位置和它的关键字之间建立一个确定的对应关系f,使每个关键字和结构中一个唯一的存储位置相对应

具体其构造器的方法有:

直接定址法、数字分析法、平方取中法、折叠法、除留余数法等

解决其冲突的方法有:

拉链法、多哈希法、开放地址法、建域法等

2. 布隆过滤器

2.1 概念

它实际上是一个很长的二进制向量和一系列随机映射函数。(位数组和哈希函数)

布隆过滤器可以用于检索一个元素是否在一个集合中。

它的优点是空间效率和查询时间都比一般的算法要好的多(更加高效,存储空间小)

缺点是有一定的误识别率和删除困难

2.2 实现原理

之所以要用布隆过滤器,是因为HashMap 的实现也有缺点,例如存储容量占比高,考虑到负载因子的存在,通常空间是不能被用满的,而且数据大了之后不可能一次性

比如存储码农研究僧这个值,通过三个哈希函数,算得三个哈希值,存放在3个位置中(位数组)

之后判定查询码农博士僧的时候,发现这三个值只要有1个没有为1,就是没存储到,也就是没在集合中

但是如果存储的值很多,再去查找的时候,可能会出现一定的误判率,导致本身没在集合中,但位数组却都是1的情况

具体如何选择上面所说的位数组长度和哈希函数的个数呢

布隆器如果过小,导致很多位置都很快是1,误判率就很很高,如果布隆器过长,误判率会越小

哈希函数的个数如果过少,其速度慢,误判率也高,如果哈希函数的个数过多,其位1的速度加快,导致布隆过滤器的效率越低

2.3 步骤

添加元素的具体的步骤是

将添加的元素给k个哈希函数算出对应位数组上的k个位置,将这k个位置设为1

查询元素的具体步骤是

将要查询的元素给k个哈希函数算出对应于位数组上的k个位置,如果k个位置有一个为0,则肯定不在集合中。如果k个位置全部为1,则可能在集合中

在计数布隆过滤器中,进行删除的前提是必须保证,值一定存在。因此单通过布隆过滤器无法保证值一定存在。如果通过其他的方法确认值存在后进行删除,则不能保证该值在后续布隆过滤器查询时一定返回不存在,因为该值相对应的位置并不一定为零。但确实可以一定概率上优化查询的效率。因此不能说计数布隆过滤器支持删除,应该说计数布隆过滤器提供了实现删除的可能

2.4 实现

public class MyBloomFilter {
 
    
    private static final int DEFAULT_SIZE = 256 << 22;
 
    
    private static final int[] seeds = {3, 5, 7, 11, 13, 31, 37, 61};
 
    
    private static HashFunction[] functions = new HashFunction[seeds.length];
 
    
    private static BitSet bitset = new BitSet(DEFAULT_SIZE);
 
    
    public static void add(String value) {
        if (value != null) {
            for (HashFunction f : functions) {
                //计算 hash 值并修改 bitmap 中相应位置为 true
                bitset.set(f.hash(value), true);
            }
        }
    }
 
    
    public static boolean contains(String value) {
        if (value == null) {
            return false;
        }
        boolean ret = true;
        for (HashFunction f : functions) {
            ret = bitset.get(f.hash(value));
            //一个 hash 函数返回 false 则跳出循环
            if (!ret) {
                break;
            }
        }
        return ret;
    }
 
    
    public static void main(String[] args) {
 
        for (int i = 0; i < seeds.length; i++) {
            functions[i] = new HashFunction(DEFAULT_SIZE, seeds[i]);
        }
 
        // 添加1亿数据
        for (int i = 0; i < 100000000; i++) {
            add(String.valueOf(i));
        }
        String id = "123456789";
        add(id);
 
        System.out.println(contains(id));   // true
        System.out.println("" + contains("234567890"));  //false
    }
}
 
class HashFunction {
 
    private int size;
    private int seed;
 
    public HashFunction(int size, int seed) {
        this.size = size;
        this.seed = seed;
    }
 
    public int hash(String value) {
        int result = 0;
        int len = value.length();
        for (int i = 0; i < len; i++) {
            result = seed * result + value.charAt(i);
        }
        int r = (size - 1) & result;
        return (size - 1) & result;
    }
}

到此这篇关于Java布隆过滤器的原理和实现分析的文章就介绍到这了,更多相关Java布隆过滤器内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Java布隆过滤器的原理和实现分析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Java布隆过滤器的原理和实现分析

数组、链表、树等数据结构会存储元素的内容,一旦数据量过大,消耗的内存也会呈现线性增长所以布隆过滤器是为了解决数据量大的一种数据结构。本文就来和大家详细说说布隆过滤器的原理和实现,感兴趣的可以了解一下
2022-11-13

Java中的布隆过滤器原理实现和应用

Java中的布隆过滤器是一种基于哈希函数的数据结构,能够高效地判断元素是否存在于一个集合中。它广泛应用于缓存、网络协议、数据查询等领域,在提高程序性能和减少资源消耗方面具有显著优势
2023-05-17

图解布隆过滤器和布谷鸟过滤器实现原理

我们元数据通过两个哈希函数函数之后得到2和7两个值,然后将2和7这个两个值对应的bit位上的值设置为1,这样我们就将元数据存放到布隆过滤器上。

如何在 Java 中实现布隆过滤器?(java怎么实现布隆过滤器)

在Java开发中,布隆过滤器是一种用于快速判断元素是否存在的数据结构。它具有高效的空间和时间复杂度,特别适用于大规模数据的去重和判断。下面将详细介绍如何在Java中实现布隆过滤器。一、了解布隆过滤器的原理布隆过滤器的核心
如何在 Java 中实现布隆过滤器?(java怎么实现布隆过滤器)
Java2024-12-22

Java的布隆过滤器如何实现

今天小编给大家分享一下Java的布隆过滤器如何实现的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。BitMap现代计算机用二进
2023-06-29

Java怎么实现布隆过滤器

这篇“Java怎么实现布隆过滤器”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Java怎么实现布隆过滤器”文章吧。什么是布隆
2023-07-05

Redis 布隆(Bloom Filter)过滤器原理与实战

布隆过滤器 (Bloom Filter)是由 Burton Howard Bloom 于 1970 年提出,它是一种 space efficient 的概率型数据结构,用于判断一个元素是否在集合中。

冷饭新炒:理解布隆过滤器算法的实现原理

布隆过滤器是「一种空间高效概率性的数据结构」(百科中原文是a space-efficient probabilistic data structure),该数据结构于1970年由Burton Howard Bloom提出,「作用是测试一个元

redis布隆过滤器的工作原理是什么

Redis布隆过滤器是一种数据结构,用于快速判断一个元素是否存在于一个集合中。它基于位数组和多个哈希函数实现。工作原理如下:初始化:布隆过滤器包含一个位数组,所有位都初始化为0。同时,需要选择合适数量的哈希函数和哈希函数的种子。添加元素
redis布隆过滤器的工作原理是什么
2024-04-09

布隆过滤器的Python实现(标准、计

github:bloompy布隆过滤器的Python3实现,包括标准、计数、标准扩容、计数扩容。更新自pybloom。安装pip install bloompy使用通过bloompy你可以使用四种布隆过滤器标准布隆过滤器标准布隆过滤器只能进
2023-01-31

布隆过滤器的原理以及使用场景

布隆过滤器主要是在redis中问的比较多,因此像这种数据结构类的,主要是考原理以及使用场景。下面一点一点开始逐步介绍。

Redis布隆过滤器的原理和应用场景,解决缓存穿透

布隆过滤器BloomFilter是一种专门用来解决去重问题的高级数据结果。

如何快速理解Scrapy分布式爬虫、队列和布隆过滤器

本篇内容介绍了“如何快速理解Scrapy分布式爬虫、队列和布隆过滤器”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!快速上手Step 0:首先
2023-06-16

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录