成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

手把手教你寫網絡爬蟲(7):URL去重

開發 后端
本期我們來聊聊URL去重那些事兒。以前我們曾使用Python的字典來保存抓取過的URL,目的是將重復抓取的URL去除,避免多次抓取同一網頁。

本系列:

[[230068]]

[[230069]]

IPv6編碼地址數:2^128(約3.4×10^38)

IPv6是IETF設計的用于替代現行版本IP協議(IPv4)的下一代IP協議,號稱可以為全世界的每一粒沙子編上一個網址。

[[230070]]

 

  1. public <T> boolean put(T object, Funnel<? super T> funnel, int numHashFunctions, BitArray bits) {  
  2.     long bitSize = bits.bitSize();  
  3.     long hash64 = Hashing.murmur3_128().hashObject(object, funnel).asLong();  
  4.     int hash1 = (int) hash64;  
  5.     int hash2 = (int) (hash64 >>> 32);   
  6.  
  7.     boolean bitsChanged = false 
  8.     for (int i = 1; i <= numHashFunctions; i++) {  
  9.         int combinedHash = hash1 + (i * hash2);  
  10.         // Flip all the bits if it's negative (guaranteed positive number)  
  11.         if (combinedHash < 0) {  
  12.             combinedHash = ~combinedHash;  
  13.         }  
  14.         bitsChanged |= bits.set(combinedHash % bitSize);  
  15.     }  
  16.     return bitsChanged;  
  17.  

 

  1. boolean set(long index) {   
  2.     if (!get(index)) {   
  3.         data[(int) (index >>> 6)] |= (1L << index);   
  4.         bitCount++;   
  5.         return true;   
  6.     }   
  7.     return false;   
  8. }     
  9.   
  10. boolean get(long index) {   
  11.     return (data[(int) (index >>> 6)] & (1L << index)) != 0;   
  12. }   

02 先get()一下,看看是不是已經置為1。 

03 index右移6位就是除以64,說明data是long型的數組,除以64就定位到了bit所在的數組下標。1L左移index位,定位到了bit在long中的位置。 

責任編輯:龐桂玉 來源: Python開發者
相關推薦

2018-05-16 15:46:06

Python網絡爬蟲PhantomJS

2018-05-16 13:50:30

Python網絡爬蟲Scrapy

2018-05-22 15:30:30

Python網絡爬蟲分布式爬蟲

2018-05-14 15:27:06

Python網絡爬蟲爬蟲架構

2018-05-14 16:34:08

Python網絡爬蟲Scrapy

2018-05-14 14:02:41

Python爬蟲網易云音樂

2020-07-10 08:24:18

Python開發工具

2023-03-27 08:28:57

spring代碼,starter

2021-01-30 10:37:18

ScrapyGerapy網絡爬蟲

2011-01-10 14:41:26

2011-05-03 15:59:00

黑盒打印機

2025-05-07 00:31:30

2021-07-14 09:00:00

JavaFX開發應用

2011-02-22 13:46:27

微軟SQL.NET

2021-02-26 11:54:38

MyBatis 插件接口

2021-12-28 08:38:26

Linux 中斷喚醒系統Linux 系統

2021-11-09 09:01:36

Python網絡爬蟲Python基礎

2021-04-01 09:02:38

Python小說下載網絡爬蟲

2009-12-24 13:52:57

網絡接入控制解決方案

2021-07-09 17:27:58

ButterKnife工具APT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区三区精品久久久 | 插插插干干干 | 伊人亚洲| 中文字幕亚洲一区二区三区 | 国产高清精品一区二区三区 | 区一区二区三在线观看 | 国产三区视频在线观看 | 日韩一及片 | 国产成人精品午夜视频免费 | av在线一区二区三区 | 97国产精品视频 | 亚洲va欧美va天堂v国产综合 | 欧洲毛片 | 91精品国产色综合久久 | 亚洲精品国产综合区久久久久久久 | 天天射中文 | 亚洲一区二区三区在线 | 精品视频一区二区三区 | 久久天天躁狠狠躁夜夜躁2014 | 91麻豆精品国产91久久久更新资源速度超快 | 欧美成人精品一区二区男人看 | 国产一区二区三区在线视频 | 孰女乱色一区二区三区 | 国产成人aⅴ | 国产精品一二三区 | 亚洲精品国产一区 | 午夜影院在线视频 | 99国产在线 | 国产一区二区三区视频免费观看 | 岛国av一区二区 | 毛片在线免费 | a在线免费观看视频 | 亚洲免费观看视频网站 | 精品成人免费一区二区在线播放 | 91高清在线| 天天操天天摸天天干 | 国产在线观看网站 | 亚洲精品美女视频 | 国产视频一区在线 | 岛国一区 | 亚洲午夜视频在线观看 |