成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面試官:如何避免 Google 抓取重復(fù)的 URL

網(wǎng)絡(luò) 網(wǎng)絡(luò)管理
哈希函數(shù)的選擇非常重要。它們必須分布均勻、速度快。例如,RedisBloom 和 Apache Spark 使用 murmur,InfluxDB 使用 xxhash。在我們的示例中,使用了三個(gè)哈希函數(shù)。在現(xiàn)實(shí)中,我們應(yīng)該使用多少個(gè)哈希函數(shù)?

如何避免 Google 抓取重復(fù)的 URL?

方案 1:使用 Set 數(shù)據(jù)結(jié)構(gòu)檢查 URL 是否已經(jīng)存在。Set 速度很快,但不節(jié)省空間。

方案 2:在數(shù)據(jù)庫(kù)中存儲(chǔ) URL,并檢查數(shù)據(jù)庫(kù)中是否有新的 URL。這種方法可行,但數(shù)據(jù)庫(kù)的負(fù)載會(huì)非常高。

方案 3:布隆過(guò)濾器。此方案更受青睞。布隆過(guò)濾器由伯頓-霍華德-布?。˙urton Howard Bloom)于 1970 年提出。它是一種概率數(shù)據(jù)結(jié)構(gòu),用于測(cè)試某個(gè)元素是否是某個(gè)集合的成員。

  • 結(jié)果為 false 說(shuō)明元素肯定不在集合中。
  • 結(jié)果為 true 說(shuō)明元素可能在集合中。

假陽(yáng)性匹配是可能的,但假陰性匹配是不可能的。

下圖說(shuō)明了布隆過(guò)濾器的工作原理。布隆過(guò)濾器的基本數(shù)據(jù)結(jié)構(gòu)是比特矢量。每個(gè)比特代表一個(gè)散列值。

圖片圖片

  • 第 1 步:要在布隆過(guò)濾器中添加一個(gè)元素,我們需要將其輸入 3 個(gè)不同的散列函數(shù)(A、B 和 C),并在結(jié)果位置上設(shè)置比特。請(qǐng)注意,“www.myweb1.com”和“www.myweb2.com”都在索引 5 處用 1 標(biāo)記了相同的位。由于比特可能被其他元素設(shè)置,因此可能出現(xiàn)誤報(bào)。
  • 第 2 步:測(cè)試 URL 字符串是否存在時(shí),對(duì) URL 字符串應(yīng)用相同的哈希函數(shù) A、B 和 C。如果三個(gè)位都為 1,則數(shù)據(jù)集中可能存在 URL;如果任何一位為 0,則數(shù)據(jù)集中肯定不存在 URL。

哈希函數(shù)的選擇非常重要。它們必須分布均勻、速度快。例如,RedisBloom 和 Apache Spark 使用 murmur,InfluxDB 使用 xxhash。

在我們的示例中,使用了三個(gè)哈希函數(shù)。在現(xiàn)實(shí)中,我們應(yīng)該使用多少個(gè)哈希函數(shù)?

在使用布隆過(guò)濾器時(shí),哈希函數(shù)的數(shù)量 k 取決于布隆過(guò)濾器的位數(shù)組大小 m 和要存儲(chǔ)的元素?cái)?shù)量 n。最佳哈希函數(shù)數(shù)量的公式為:

這個(gè)公式是為了最小化布隆過(guò)濾器的誤判率(即“假陽(yáng)性率”)而得出的。

在實(shí)際應(yīng)用中,常見(jiàn)的布隆過(guò)濾器哈希函數(shù)數(shù)量通常在 3 到 7 個(gè)之間,這個(gè)數(shù)量能在位數(shù)組長(zhǎng)度和誤判率之間達(dá)到較好的平衡。

責(zé)任編輯:武曉燕 來(lái)源: ByteByteGo
相關(guān)推薦

2015-08-13 10:29:12

面試面試官

2021-12-21 07:07:43

HashSet元素數(shù)量

2020-09-30 06:49:25

MySQL查詢(xún)刪除

2020-08-06 07:49:57

List元素集合

2010-08-12 16:28:35

面試官

2023-02-16 08:10:40

死鎖線(xiàn)程

2025-03-12 00:44:00

2023-02-04 07:34:12

URLIP身份定位

2024-02-20 14:10:55

系統(tǒng)緩存冗余

2024-03-18 14:06:00

停機(jī)Spring服務(wù)器

2024-04-03 00:00:00

Redis集群代碼

2024-09-11 22:51:19

線(xiàn)程通訊Object

2021-07-06 07:08:18

管控數(shù)據(jù)數(shù)倉(cāng)

2025-03-17 00:00:00

2023-11-20 10:09:59

2024-09-29 00:00:00

高并發(fā)交易所宕機(jī)

2015-08-24 09:00:36

面試面試官

2024-02-04 10:08:34

2024-12-25 15:44:15

2022-05-23 08:43:02

BigIntJavaScript內(nèi)置對(duì)象
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 色婷婷综合久久久中字幕精品久久 | 亚洲欧洲一区 | 在线观看毛片网站 | 欧美在线a | 天久久 | 精品欧美一区二区三区免费观看 | 日日噜噜噜夜夜爽爽狠狠视频97 | 四虎影视免费观看 | 国产成人一区二区三区电影 | 三级在线免费 | 欧美成人一区二免费视频软件 | 久久久久香蕉视频 | 羞羞在线观看视频 | 国产精品美女久久久久久久网站 | 亚洲欧洲精品在线 | 97精品超碰一区二区三区 | 精品国产一级 | 午夜欧美 | jav成人av免费播放 | 久久出精品 | 国产日韩欧美一区二区 | av免费看片 | 国产一区免费视频 | av在线播放网址 | 亚洲网站在线观看 | 国产一区二区三区色淫影院 | 亚洲精品一二三区 | 中文字幕亚洲无线 | 色噜噜色综合 | 亚洲国产成人精品久久久国产成人一区 | 精品乱码一区二区三四区视频 | 久久久成人免费一区二区 | 成av在线| 久久久69| www.99热| 欧美亚洲综合久久 | 国产日韩精品一区 | 欧美一区二区在线视频 | 欧美日韩视频在线第一区 | 亚洲午夜精品视频 | 看片一区 |