探討百度快照的蜘蛛群假想理論問題
對于很多新手站長來說,經常有這樣的疑惑,為什么蜘蛛天天爬行,但是網站快照卻不更新。今天冰山一角來給大家分享下一種蜘蛛假想。
蜘蛛群理論:百度每天都靠蜘蛛抓取頁面,蜘蛛不是一只,而是一群。在一群蜘蛛中,它們各自負責不同的分工。具體的分工我也還了解不完全,可以知道的是分工可以分為新網頁的爬行和舊網頁的爬行。如123.125.*.*爬行新網頁居多,61.135.*.*以爬行舊網頁居多,百度還有其他ip段的蜘蛛,我對福州現代婦產醫院網的觀察,這2類比較常見。
網站快照更新最快的當屬首頁,不是首頁的話你可能被K了,因為首頁權重最高,而且都會調用最新內容,也最容易被蜘蛛發現。剛剛所說的蜘蛛是一群,所以任何一只蜘蛛都是不會在一個網站一直呆著,所以雖然說百度蜘蛛天天呆在你的網站,但不見得群蜘蛛都一直呆在你的網站。
蜘蛛在進駐你的網站后,開始各自分配不同的監控區域,有的蜘蛛負責head,有的蜘蛛負責root,有的負責body等等,body里面又有不同的蜘蛛干不同的事。也就是說同一只蜘蛛只負責小塊區域,而且只會在一天的某些時段來過,當它發現你有更新的話,明天再來,如果沒有的話給你個304,,304多了,它就會去減少爬行的頻率,具體頻率長什么樣我也不清楚,理論模型應該是正弦曲線。
同理,所有的蜘蛛使用同一規則的話,就會出現監控head、root等區域的蜘蛛比較懶,body部分的比較勤快,不過,body中間也有懶惰的。
如果你的網站天天更新,那么body更新區域的都是200,其他的是304.那么百度要考慮給你最新的快照呢還是不給?于是就要投票表決,因為是群蜘蛛嘛,蜘蛛們都有投票權,才顯得公平,但是又有一個問題,蜘蛛的分量不同,如body區的蜘蛛,工作比較辛苦,head區就比較輕松,所以蜘蛛投票需要分權,body的蜘蛛權值高,root區的權值低,當然中間還有不等的權值。
經加權后的計算結果來決定百度給不給該網站最新快照。這就是為什么網站天天更新但是快照不更新的原因之一。
這樣一來的話,我們可以從以下幾個方面入手解決快照慢的問題,一個是讓body的蜘蛛更勤快,提升帶回200蜘蛛的權值,給投票帶來優勢。二是減少監控區,監控區域太多,那么無所事事的蜘蛛就越多,和我國的有關部門一樣,所以我們要做到精簡,那么拉后腿的蜘蛛就要說再見了。
下面來講為什么百度會對改版的網站降權,原因其實很簡單,原先進駐網站的蜘蛛因為只是負責小區域,當你改版后,它發現自己的區域沒了,手足無措,于是百度就將蜘蛛召回,然后重新觀察,放出蜘蛛觀察員,然后再把網站分小塊,改天再派蜘蛛進去,重新開始蜘蛛的工作,那么你的站就恢復正常了。
說了這么多,發現自己行文的風格變了,不過擬人化會更容易理解,希望對你有幫助。
【編輯推薦】