搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏数据人生
bloom filter
优点是实现简单，缺点是内存占用大使用bloom filter算法。优点是使用较小的内存空间，就可以判断一个给定的值是否在一个大的集合中，缺点是有一定的误判率，可以将误判率优化到0.009%，而这个是可以接受的 bloom filter原理现有资源长度为m的bit数组构建bloom filter 对于每一个输入的key，用hash算法产生k个hash值，将array的这k个位置均设成1。该网站Example有相应的演示。否则，该key一定在不在这个集合内参考 https://en.wikipedia.org/wiki/Bloom_filter http://codingjunkie.net/guava-bloomfilter
64110编辑于 2022-09-29
来自专栏周拱壹卒
【译】Bloom filter
原文地址：https://redis.io/docs/latest/develop/data-types/probabilistic/bloom-filter/ 源码：https://github.com /redis/docs/blob/e871df72be1af7a26a23bea62863650d3f648daa/content/develop/data-types/probabilistic/bloom-filter.md Bloom. redis-enterprise/redis-bloom/ [7] Probably and No: Redis, RedisBloom, and Bloom Filters: https://redis.com /blog/redis-redisbloom-bloom-filters/
700编辑于 2026-03-16
来自专栏mythsman的个人博客
Bloom Filters简介
简介 Bloom Filter(又叫布隆过滤器)是由B.H.Bloom在1970年提出的一种多哈希函数映射的快速查找算法。在这种情况下Bloom Filter的时空优越性就体现出来了。为了说明Bloom Filter存在的重要意义，举一个实例：假设要你写一个网络蜘蛛（web crawler）。 Bloom Filter算法相对朴素算法的区别就是使用了多个哈希函数，而不是一个。初始化创建一个m位BitSet，下标为[0,m-1]，将所有位初始化为0。我们将一个Bloom Filter 用一个(m,n,k,H)四元数表示，将需要查询的集合用S表示，将对于集合S的Bloom Filter 用BF_s表示，将那个BitSet中的第i位用BF_s[i]表示 Bloom Filter BF_{s_1\cap_2}
60910编辑于 2022-11-14
来自专栏git
Bloom Filter的对接
14.4 Bloom Filter 的对接首先回顾一下 Scrapy-Redis 的去重机制。所以我们需要使用一个更加节省内存的去重算法 Bloom Filter。 1. 了解 BloomFilter Bloom Filter，中文名称叫作布隆过滤器，是 1970 年由 Bloom 提出的，它可以被用来检测一个元素是否在一个集合中。 Bloom Filter 的空间利用效率很高，使用它可以大大节省存储空间。Bloom Filter 使用位数组表示一个待检测集合，并可以快速地通过概率算法判断一个元素是否存在于这个集合中。本节我们来了解 Bloom Filter 的基本算法，以及 Scrapy-Redis 中对接 Bloom Filter 的方法。 2.
62120发布于 2020-04-24
来自专栏屈定‘s Blog
Guava -- Bloom Filter原理
具体有相关公式，不过一般使用直接计算工具，比如bloom-calculator，100w的数据判断，万分之一的误判率才需要2M内存，优势巨大。清单1: redis bloom filter命令 BF.RESERVE {key} {error_rate} {size} 初始化一个布隆过滤器 BF.ADD {key} {item} 添加单个元素文章标题: Guava -- Bloom Filter原理文章链接: https://mrdear.cn/2019/03/16/framework/guava/guava--bloom-filter/
1.9K30发布于 2020-02-10
来自专栏数据库技术日积月累
python实现bloom filter
Bloom Filter是一种空间效率非常高的随机数据结构，用于判断一个元素是否属于一个集合。 Bloom Filter的应用非常广泛，例如网络路由器、搜索引擎、分布式系统等领域。它可以用于快速判断一个元素是否属于一个集合，从而避免了昂贵的磁盘或网络访问。另外，Bloom Filter还可以用于去重、数据压缩、数据同步等场景。下面我们使用python代码简单实现一个bloom filter。在主函数中，创建一个Bloom Filter对象，并向其中添加了三个元素。然后，我们、、查询了两个元素，其中一个属于集合中，另一个不属于集合中。最后，打印出查询结果。需要注意的是，Bloom Filter的误判率取决于位数组的大小和哈希函数的个数。
97453编辑于 2023-03-28
来自专栏木东居士的专栏
Bloom Filter 的数学背景
上文我们分享了 Bloom Filter 的基本原理和代码实现，在文章的结尾提到了 BF 的误判率以及几个重要参数的选取，我们只给出了最后的公式，而没有具体的推导过程。
1.4K31发布于 2018-05-25
来自专栏mythsman的个人博客
Garbled Bloom Filters算法简述
简述 Garbled Bloom Filters（GBF）算法是Bloom Filters （BF）算法的变形，并且结合了Shamir的信息分享算法，更好的解决了hash冲突的问题其形式上是将Bloom 该算法同Bloom Filters 一样，是一种有一定容错率的hash算法，对于存在于集合中的元素查询返回的值总是true，而对于不在集合中的元素查询的返回值大多为假，这里判断失误的概率是关于安全参数\ 3.我们将一个Garbled\ Bloom\ Filter 用(m,n,k,H,\lambda)表示，将需要查询的集合用S表示，将对于集合S的GBF用GBF_s表示，将其中的第i个字符串用GBF_s[i
1.4K10编辑于 2022-11-14
来自专栏自然语言处理
【LLM系列之BLOOM】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
2 BLOOM训练与数据集 2.1. BigScience BLOOM 的开发由 BigScience 完成，BigScience 是一个开放的研究合作组织，其目标是公开发布 LLM。在预训练 BLOOM 之后，应用大规模多任务微调方法使 BLOOM 具备多语言零样本任务泛化能力，其结果模型为 BLOOMZ。 3.3 模型变体六个参数量的模型变体 BLOOM 的能源消耗略高于 OPT，但BLOOM 的排放量大约减少 2/3（25 吨对 70 吨）。 OPT 和 BLOOM模型系列都随着规模的扩大而略有改善，并且在所有任务中系列之间没有一致的差异。BLOOM-176B 在 Ax-b、CB 和 WiC 上领先于 OPT-175B。 5 总结 BLOOM主要提升LLM的多语言能力优化方式采用的AIBI、层归一化，其他模型差不多
1.4K30编辑于 2023-08-25
来自专栏ApacheHudi
Bloom Filter在Hudi中的应用
而当判定不存在时，则元素一定不存在，Bloom Filter在对精确度要求不太严格的大数据量场景下运用十分广泛。引入为何要引入Bloom Filter？一种简单办法是当Bloom Filter判断该元素存在时，再去文件里二次确认该元素是否真的存在；而当Bloom Filter判断该元素不存在时，则无需读文件，通过二次确认的方法来规避Bloom Filter 接下来我们来分析Bloom Filter在Hudi中的应用。总结 Hudi引入Bloom Filter是为了加速upsert过程，并将其存入parquet数据文件中的Footer中，在读取文件时会从Footer中读取该Bloom Filter。在利用Bloom Filter来判断记录是否存在时，会采用二次确认的方式规避Bloom Filter的误判问题。
1.6K30发布于 2021-04-13
来自专栏海天一树
Bloom Filter布隆过滤器
一、简介 Bloom Filter是1970年由Bloom提出的，最初广泛用于拼写检查和数据库系统中。这个问题是由hash函数会发生碰撞的特性所决定的，它造成了Bloom filter的错误率产生。这个错误率可通过改变Bloom filter数组大小，或改变hash函数个数进行调节控制。 Bloom filter不需要存储元素本身，在某些对保密要求非常严格的场合有优势。另外，Bloom filter一般都可以表示大数据集的全集，而其它任何数据结构都难以做到。这使得要求“零错误”的场合无法应用Bloom filter。其次，一般情况下不能从Bloom filter中删除元素。这两方面也是目前Bloom filter的重点研究方向，有不少工作，使得出现了很多Bloom filter的变种。
87120发布于 2018-07-25
来自专栏木东居士的专栏
Counting Bloom Filter 的原理和实现
在所要表达的集合是静态集合的时候，标准 Bloom Filter 可以很好地工作，但是如果要表达的集合经常变动，标准Bloom Filter的弊端就显现出来了，因为它不支持删除操作。二、什么是 Counting Bloom Filter Counting Bloom Filter 的出现，解决了上述问题，它将标准 Bloom Filter 位数组的每一位扩展为一个小的计数器（Counter Counting Bloom Filter 通过多占用几倍的存储空间的代价，给 Bloom Filter 增加了删除操作。基本原理是不是很简单？看下图就能明白它和 Bloom Filter 的区别在哪。 ? Bloom Filter）利用 d-left hashing 的方法存储 fingerprint，解决哈希表的负载平衡问题；ACBF（Accurate Counting Bloom Filter）通过
18.1K1611发布于 2018-05-25
来自专栏物流IT圈
Redis布隆Bloom过滤器
Bloom过滤器需要多少空间？一个大小为100MB的过滤器可以容纳多达1亿个单独数据项，错误率为2％。比特币还使用布隆过滤器优化客户端通信。你需要高度可预测的行为（因为布谷鸟过滤器在插入过程中使用随机源来提供性能改进）基本用法： Cuckoo过滤器也存在于Redis的ReBloom中，可以像使用Bloom一样使用，唯一的区别是命令前缀是CF
1.6K40发布于 2019-07-16
来自专栏用户9199536的专栏
Java|存储|Guava Bloom Filter源码剖析
Bloom Filter(布隆过滤器)以牺牲少量正确率为代价，利用较少的空间实现O(1)的查询，在LSM Tree、Cache中作为常见的读优化手段。本文结合谷歌的Guava源码介绍Bloom Filter的实现。 bitSize); } return bitsChanged; } Less Hashing, Same Performance: Building a Better Bloom filter), given the * expected insertions and total number of bits in the Bloom filter * *
See http://en.wikipedia.org/wiki/File:Bloom_filter_fp_probability.svg for the formula.
94840发布于 2021-11-22
来自专栏全栈程序员必看
bloom过滤器原理_gabor filter
Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。集合表示和元素查询下面我们具体来看Bloom Filter是如何用位数组表示集合的。初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。自从Burton Bloom在70年代提出Bloom Filter之后，Bloom Filter就被广泛用于拼写检查和数据库系统中。近一二十年，伴随着网络的普及和发展，Bloom Filter在网络领域获得了新生，各种Bloom Filter变种和新的应用不断出现。
37430编辑于 2022-11-01
来自专栏大数据-随笔
一图理解 Hbase Bloom Filter 的使用
hbase 在查询的时候通过Filter就可以高效的判断数据是否在block之中，提高查询效率
80100发布于 2020-06-23
来自专栏DevOps
AI模型：开源大语言模型bloom学习
作为一名开源爱好者，我非常不喜欢知识付费或者服务收费的理念，所以便有决心写下此系列，让一般大众们可以不付费的玩转当下比较新的开源大语言模型bloom及其问答系列模型bloomz。一、模型介绍 bloom是一个开源的支持最多59种语言和176B参数的大语言模型。 bigscience在hugging face上发布的bloom模型包含多个参数多个版本，本文中出于让大家都能动手实践的考虑，选择最小号的bloom-1b1版本，其他模型请自行尝试。 #在当前目录创建名叫bloom的虚拟环境创建完后如何启动：先一路cd到根目录，即脚本文件夹所在目录，然后cd进去activate。下载模型地址: https://huggingface.co/bigscience/bloom-1b1/tree/main 把如上图所示链接中的五个文件（不包含这个flax_model.msgpack）
84610编辑于 2024-03-29
来自专栏全栈程序员必看
海量数据处理之Bloom Filter详解
一、什么是Bloom Filter Bloom Filter是一种空间效率很高的随机数据结构，它的原理是，当一个元素被加入集合时，通过K个Hash函数将这个元素映射成一个位阵列（Bit array 因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。 Bloom Filter在时间空间这两个因素之外又引入了另一个因素：错误率。在使用Bloom Filter判断一个元素是否属于某个集合时，会有一定的错误率。自从Burton Bloom在70年代提出Bloom Filter之后，Bloom Filter就被广泛用于拼写检查和数据库系统中。近一二十年，伴随着网络的普及和发展，Bloom Filter在网络领域获得了新生，各种Bloom Filter变种和新的应用不断出现。
88910编辑于 2022-09-09
来自专栏架构师成长之路
海量数据处理算法—Bloom Filter
Bloom-Filter算法简介 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter的详细介绍：Bloom Filter 2、 Bloom-Filter的基本思想 Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。 Bloom Filter的缺点： 1）Bloom Filter无法从Bloom Filter集合中删除一个元素。因为该元素对应的位会牵动到其他的元素。 Compressed Bloom Filter 为了能在服务器之间更快地通过网络传输Bloom Filter，我们有方法能在已完成Bloom Filter之后，得到一些实际参数的情况下进行压缩。 3）检测广播消息包的环路，将Bloom Filter保存在包里，每个节点将自己添加入Bloom Filter。 4）信息队列管理，使用Counter Bloom Filter管理信息流量。
2.2K10编辑于 2022-04-14
来自专栏全栈程序员必看
布隆过滤器Bloom Filter简介
因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。具体做法就是：将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url 5、如何解决布隆过滤器不支持删除的问题：（1）counting bloom filter： Counting Bloom Filter将标准 Bloom Filter位数组的每一位扩展为一个小的计数器 Counting Bloom Filter通过多占用几倍的存储空间的代价，给Bloom Filter增加了删除操作。
67820编辑于 2022-06-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

bloom filter

【译】Bloom filter

Bloom Filters简介

Bloom Filter的对接

Guava -- Bloom Filter原理

python实现bloom filter

Bloom Filter 的数学背景

Garbled Bloom Filters算法简述

【LLM系列之BLOOM】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Bloom Filter在Hudi中的应用

Bloom Filter布隆过滤器

Counting Bloom Filter 的原理和实现

Redis布隆Bloom过滤器

Java|存储|Guava Bloom Filter源码剖析

bloom过滤器原理_gabor filter

一图理解 Hbase Bloom Filter 的使用

AI模型：开源大语言模型bloom学习

海量数据处理之Bloom Filter详解

海量数据处理算法—Bloom Filter

布隆过滤器Bloom Filter简介

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐