幾種開源網絡爬蟲的簡單比較
爬蟲里面做的***的肯定是google ,不過google公布的蜘蛛是很早的一個版本,下面是幾種開源的網絡爬蟲的簡單對比表:
還有其他的一些比如Ubicrawler、FAST Crawler、天網蜘蛛等等沒有添加進來。
之后主要研究下larbin爬蟲,如果有可能會給它添加一個刪除功能,因為其排重部分用的是bloom filter算法,這個算法的有點很明顯,對大規模數據的處理很快,性能很好,而且內存占用很小,但是什么事都沒有盡善盡美的,該算法的直接缺點就是不能刪除,還會出現誤判情況。關于bloom filter有很多相關論文,網上也有些高質量的文章,暫時不做累述,之后如果自己有不一樣的看法,再寫關于該算法的文章。
刪除功能的算法暫時還不太確定,需要進一步了解,現在了解的counting bloom filter不錯,帶來的代價是內存占用高一點,園友們有什么建議和想法歡迎提出來哈!
原文鏈接:http://www.cnblogs.com/shapherd/archive/2011/03/16/crawler_cmp.html
【編輯推薦】