搜索引擎告訴你如何“論資排輩”

作者：SH的全棧筆記 2023-02-08 10:45:23

開發前端

現在我們隨便搜索一些數據可能都會找到幾十、甚至上百萬條結果，如果是較為熱門的內容甚至會有上千萬條。那如何從這上千萬個網頁中，找到用戶最想要的、或者說是跟用戶搜索的關鍵詞最相關的網頁呢？這就是我們本章要探索的內容。

在前文「??搜索引擎告訴你如何大海撈針??」中，我們簡要的描述了搜索引擎是如何從成百上千億的網站中，快速的搜索到我們要找的內容。但能夠搜索到結果只是搜索流程中的一部分，還有另一個很重要組成部分 —— 排序。

現在我們隨便搜索一些數據可能都會找到幾十、甚至上百萬條結果，如果是較為熱門的內容甚至會有上千萬條。那如何從這上千萬個網頁中，找到用戶最想要的、或者說是跟用戶搜索的關鍵詞最相關的網頁呢?這就是我們本章要探索的內容。

如何對相關的結果排序

“相關”這個詞其實并不是一個非黑即白的量化指標，例如大家去搜索「XXX 車測評」或者「XXX 車怎么樣」的關鍵字時，假設搜索到了兩篇文章：

張三、李四對XXX車的測評

其文章內容都是在描述這款車，只是角度不同。那這兩篇文章都是符合「相關」的。

接下來我們思考一個問題：

既然兩個網頁都相關，那誰該排在前面、誰該排在后面呢?這個排序的評判標準是啥呢?

我們可以通過“鏈接”的方式來實現。舉例說明，現在有另外的 4 個用戶 A、B、C、D，他們在某些網頁里貼了張三、李四車評網頁的鏈接，通過他們的鏈接，其他的用戶可以跳轉到張三、李四的網頁：

用戶A、B、C、D貼了張三、李四的網頁鏈接

可以看到，用戶 A 鏈接到了張三的網頁，而 B、C、D 鏈接到了李四的網頁，張三和李四的鏈接比例為 1:3，單從鏈接的數量這個緯度來看，搜索引擎就可以認為李四的網頁應該擁有更高的排名。

大家覺得這樣合理嗎?

可能大家還沒發現問題在哪兒，我把上面的圖換一下內容，大家應該就懂了：

用戶A、B、C、D的鏈接內容是負面的

可以看到，雖然從鏈接數量上來看，李四更多一些，但這些內容都是負面(咱們先善意假設這些負面內容大概也許可能是真的)。張三雖然只有 1 個鏈接，但對其評價確實積極正面的。這個時候如果搜索引擎把李四的網頁排在前面肯定顯的不合適。(當然，這里不考慮張三的網頁內容質量也很垃圾，只是找的水軍去給的好評)

雖然如此，上面通過鏈接的方式也仍然有效，因為貼鏈接更多的還是用于推薦。但用戶 A、B、C、D 卻沒有上圖中那么理想。因為現實中，用戶其實是有權重的。

引入權重

怎么個權重法呢?

舉個例子，當一個網絡上的普通用戶告訴你，有個護膚的產品巨好用，你的內心 OS Be like：呵呵，用你告訴我?但要是 XX琦直播間告訴你，這個護膚的產品巨好用，你可能就會：買它!

這就是體現權重對我們決策影響的一個很好的例子，把這個實例代入到上面的圖中，假設用戶 A 是類似于 XX琦直播間的一個很資深的、廣受好評、廣受信任的車評人，那他的建議權重肯定會大于其他的普通用戶。

但，計算機并不能像人腦一樣判斷某某用戶是個大 V，他的推薦要排在前面，總歸還是需要一個量化的過程，那到底該如何量化呢?底層其實還是鏈接那一套邏輯。

假設用戶 A 是個大 V，他的主頁被很多網頁給鏈接了，我們假設這些“很多”網頁都是一些普通的網頁，沒有其他任何鏈接指向他們，那么這些網頁的權重值就是 1，那么如果有 100 個這樣的網頁都貼了大 V 的主頁，那么大 V 的主頁權重值就是 100，如下圖所示：

在鏈接的數量模型中加上了權重值

通過對權重值的計算我們得出，張三網頁的排序優先級應該高于李四，因為權重值 100 > 3。

看到這里，大家是不是覺得這樣已經能解決我們開篇的問題了。通過鏈接 + 權重的方式，能夠將相關度較高的網頁排在前面。

不過很遺憾，這套邏輯有個非常大的問題。

鏈接的循環引用

實際的網頁依賴情況可不會像上圖這么的理想、清晰、層次分明，很多的網頁可能會存在循環依賴的情況，比如：

網頁在實際的環境中可能存在循環引用

碰上這種循環我們都知道會發生什么，部分網頁的權重值會不停的循環、不停的增加，而這顯然是不合理的。

隨機訪問

為了解決這個問題，我們需要使用“隨機訪問”。

簡要描述就是：從網上隨便找個網頁開始訪問，然后隨機點一個鏈接，然后跳到下一個網頁再執行同樣的操作。除此之外，“隨機訪問”還有一個機制：由 15% 的概率不隨機從當前網頁點鏈接了，而是直接跳到已經訪問過的頁面。

麻瓜描述就是：跟我們平時“網上沖浪“干的事差不多，就好像大家在手機上刷 B 站，點一個首頁推薦視頻，然后這個視頻下面還有推薦，再點，然后繼續看關聯的視頻，然后當你命中了”15%“的概率，厭倦了，就瘋狂右滑回到首頁，繼續點其他的視頻，再重復這個過程。

然后，這套算法會記錄每個網頁被訪問的次數。因為是隨機訪問，所以當某個網站被其他的網站引用越多，它被訪問到的概率就越大。而這個被訪問的次數，就是它的權重了。

由于整套的隨機訪問是有總次數的限制，并且即使網頁之間的鏈接依賴存在循環，也不會導致權重無限次的增加，因為有 15% 的概率重訪問。這樣一來就能能夠解決上面的死循環問題。本質上，隨機訪問的底層邏輯還是依賴權重的思想，只不過權重的計算模式稍微換了一下。

總結

上面這一套算法也叫 PageRank，由 Google 的兩位創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)在 1998 年的一篇論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》中提出。Page 是一語雙關，它既是創始人的名字，也代表網頁的排序。

只不過實際中的情況肯定只會更復雜，所以實際的隨機訪問算法和上面描述的略有不同。舉個例子，我想要推廣我的網頁 XX，那我可以搞一堆其他的無關緊要的網頁，在里面鏈上網頁 XX 的地址，以此來刷權重值，而這明顯是不符合預期的。并且，成百上千億的網頁，如果真的要運行隨機訪問算法，耗時可想而知，所以 PageRank 并不能被實際應用。并且實際的生產場景，不可能只通過這一個緯度來評判網頁的重要性。

不過，PageRank 的核心思想 —— 網頁權重值的傳遞仍然是有效的。

責任編輯：姜華來源： SH的全棧筆記

搜索引擎前端

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

搜索引擎告訴你如何“論資排輩”

如何對相關的結果排序

引入權重

鏈接的循環引用

隨機訪問

總結