成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

布隆過濾器的原理以及使用場景

存儲 存儲軟件
布隆過濾器主要是在redis中問的比較多,因此像這種數據結構類的,主要是考原理以及使用場景。下面一點一點開始逐步介紹。

[[349127]]

這一篇是我重寫的,之前寫過一篇發現面試的時候問的問題雖然大概能解決,但是有幾個點沒有整理到位,所以自己給自己列出了很多面試常見的問題,準備一篇一篇去解決。本文整體思路是延續之前的那篇文章,在此基礎之上添加了幾個點而已。

布隆過濾器主要是在redis中問的比較多,因此像這種數據結構類的,主要是考原理以及使用場景。下面一點一點開始逐步介紹。

一、認識布隆過濾器

1、概念

布隆過濾器其實就是加快判定一個元素是否在集合中出現的方法。比如說在一個大字典中,要查找某個單詞是否存在,于是我們就可以使用布隆過濾器,快速高效省時省力。

這里有一個考察點,那就是布隆過濾器只能判定一個元素不在集合里面,不能判斷存在,什么意思呢!就是說一個蘋果不在籃子里,這個我可以通過布隆過濾器知道,但是一定在籃子里嘛?這個通過布隆過濾器我是不能判定的。

下面通過原理就能理解這個了。

2、原理

先舉一個例子,在我們身邊充斥著各種各樣的XX網站,為了不毒害我們祖國的花朵,于是國家網警就開始對這些網站進行割除過濾,問題來了,這些網站的地址其實是不停的更換的,這些垃圾網站和正常網站加起來全世界據統計也有幾十億個。因此就會帶來如下的問題:

(1)網站數量太多,存儲起來比較麻煩。一個地址最起碼有32個字節,一億個地址就需要1.6G的內存。

(2)一個一個比較,太費時間了。

因此布隆過濾器被設計出來了,他是如何做到高效的呢?本質上其實就是一個HASH映射器。他的底層其實是一個超大的二進制向量和一系列隨機映射函數。現在我們按照之前的那個例子,我們存儲1億個垃圾網站地址。

(1)第一步:建立一個32億二進制(比特),也就是4億字節的向量。全部置0。

img

(2)第二步:網警用八個不同的隨機數產生器(F1,F2, …,F8) 產生八個信息指紋(f1, f2, …, f8)。

(3)第三步:用一個隨機數產生器 G 把這八個信息指紋映射到 1 到32億中的八個自然數 g1, g2, …,g8。

(4)第四步:把這八個位置的二進制全部設置為一。

img

OK,有一天網警查到了一個可疑的網站,想判斷一下是否是XX網站,于是就開始檢查了。通過同樣的方法將XX網站通過哈希映射到32億個比特位數組上的8個點。如果8個點的其中有一個點不為1,則可以判斷該元素一定不存在集合中。

注意:現在你可能會發現一個問題,如果兩個XX網站通過上面的步驟映射到了相同的8個點上,或者是有一部分點是重合的,這時候該怎么辦?于是就出現了誤報,也就是說A網站在12345678個點上全部置1,B網站通過同樣的方式在23456789上全部置1,這時候B網站來了是不能確定是否包含的。這個邏輯相信各位都理解。這個是最基礎的面試問題。

3、誤報率

這一小節是稍微高級一點點,某中廠問到了一次,于是這一次就添加了進來。

通過上面的解釋相信都大概了解的差不多了,其實就是hash函數映射,由于有hash沖突產生了誤報率,誤報率也就是判斷失敗的情況。

既然是由于hash沖突,那我把布隆過濾器的二進制向量調到很大,這樣不就解決了嘛,但是由于數據量比較大,因此現在就要考慮一下誤報率和存儲效率之間選擇一個折中值了。有一個計算公式如下:公式來源于github

假設位數組的長度為m,哈希函數的個數為k。檢測某一元素是否在該集合中的誤報率是:

[公式]

如何使得誤報率最小,數學問題,求導就可以了。

4、使用場景

(1)google的guava包中有對Bloom Filter的實現

(2)通常使用布隆過濾器去解決redis中的緩存穿透,解決方案是redis中bitmap的實現,

(3)釣魚網站、垃圾郵件檢測

大體就這些,可能還有很多!!!

二、代碼實現布隆過濾器

上面只是給出了其原理,下面我們代碼實現一下。

  1. public   class  MyBloomFilter { 
  2.     // 2 << 25表示32億個比特位 
  3.      private static final int DEFAULT_SIZE =  2 << 25 ; 
  4.      private static final int[] seeds = new int [] {3,5,7,11,13,19,23,37 }; 
  5.      //這么大存儲在BitSet 
  6.      private  BitSet  bits = new BitSet(DEFAULT_SIZE); 
  7.      private  SimpleHash[] func  = new  SimpleHash[seeds.length]; 
  8.  
  9.      public   static   void  main(String[] args) { 
  10.         //可疑網站 
  11.         String value = "www.愚公要移山.com" ; 
  12.         MyBloomFilter filter = new MyBloomFilter(); 
  13.         //加入之前判斷一下 
  14.         System.out.println(filter.contains(value)); 
  15.         filter.add(value); 
  16.         //加入之后判斷一下 
  17.         System.out.println(filter.contains(value)); 
  18.     } 
  19.     //構造函數 
  20.      public  MyBloomFilter() { 
  21.          for  ( int  i  =   0 ; i  <  seeds.length; i ++ ) { 
  22.             func[i]  =   new  SimpleHash(DEFAULT_SIZE, seeds[i]); 
  23.         } 
  24.     } 
  25.      //添加網站 
  26.      public   void  add(String value) { 
  27.          for  (SimpleHash f : func) { 
  28.             bits.set(f.hash(value),  true ); 
  29.         } 
  30.     } 
  31.      //判斷可疑網站是否存在 
  32.      public   boolean  contains(String value) { 
  33.          if  (value  ==   null ) { 
  34.              return   false ; 
  35.         } 
  36.          boolean  ret  =   true ; 
  37.          for  (SimpleHash f : func) { 
  38.             //核心就是通過“與”的操作 
  39.             ret  =  ret  &&  bits.get(f.hash(value)); 
  40.         } 
  41.          return  ret; 
  42.     } 

還有一個SimpleHash,我們看一下

  1. public   static   class  SimpleHash { 
  2.         private  int  cap; 
  3.         private  int  seed; 
  4.  
  5.         public  SimpleHash( int  cap,  int  seed) { 
  6.             this .cap  =  cap; 
  7.             this .seed  =  seed; 
  8.        } 
  9.         public   int  hash(String value) { 
  10.             int  result  =   0 ; 
  11.             int  len  =  value.length(); 
  12.             for  ( int  i  =   0 ; i  <  len; i ++ ) { 
  13.                result  =  seed  *  result  +  value.charAt(i); 
  14.            } 
  15.             return  (cap  -   1 )  &  result; 
  16.        } 
  17.    } 

這就是布隆過濾器的實現。

本文轉載自微信公眾號「愚公要移山」,可以通過以下二維碼關注。轉載本文請聯系愚公要移山公眾號。

 

 

責任編輯:武曉燕 來源: 愚公要移山
相關推薦

2024-01-05 09:04:35

隆過濾器數據結構哈希函數

2023-04-26 08:32:45

Redis布隆過濾器

2024-11-04 08:45:48

布隆過濾器元數據指紋值

2024-03-15 11:21:22

布隆過濾器數據庫數據

2022-03-21 08:31:07

布隆過濾器Redis過濾器原理

2024-09-18 10:08:37

2025-04-30 08:47:41

2024-03-04 10:24:34

布隆過濾器C#代碼

2025-02-08 17:30:00

布隆過濾器數據結構

2021-03-06 14:41:07

布隆過濾器算法

2023-01-31 08:19:53

二進制元素數量

2025-01-23 00:00:00

Java布隆過濾器

2019-03-22 15:15:25

Redis緩存擊穿雪崩效應

2021-09-03 06:33:24

布隆過濾器高并發

2025-01-22 00:00:00

布隆過濾器二進制

2024-09-25 17:44:08

2024-10-09 15:54:38

布隆過濾器函數

2023-07-06 10:15:38

布隆過濾器優化

2023-10-30 10:40:29

檢查用戶app注冊數據庫

2020-08-28 13:02:17

布隆過濾器算法
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色网络在线观看 | 国产一区二区三区四区五区加勒比 | 91高清视频 | 午夜精品久久久久久久星辰影院 | 特黄av| 久久综合一区 | 免费电影av | 日干夜操 | 99热碰| 日韩精品一区二区三区中文字幕 | 狠狠干av | 一区二区三区免费 | 91在线免费视频 | 国产精品自在线 | 在线中文视频 | 国产高清视频一区二区 | 99久久久久久99国产精品免 | 人人射人人插 | 精品视频一区二区三区在线观看 | 成人a网 | 久久久免费少妇高潮毛片 | 国产精品国产三级国产aⅴ原创 | 国产精品久久久久久av公交车 | 国产精品美女久久久久aⅴ国产馆 | 毛片99| av黄色免费 | 亚洲欧美在线一区 | 午夜视频在线观看网址 | 久久久久久久久久久久久久av | 免费视频一区二区 | 18性欧美| 国产传媒在线播放 | 奇米影视77 | 国产精品资源在线观看 | 日韩a在线| 欧美不卡一区二区三区 | 亚洲一区二区三区视频 | 97国产精品视频人人做人人爱 | 日本三级精品 | 成人不卡| 99视频在线 |