成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

搜索引擎告訴你如何“論資排輩”

開發 前端
現在我們隨便搜索一些數據可能都會找到幾十、甚至上百萬條結果,如果是較為熱門的內容甚至會有上千萬條。那如何從這上千萬個網頁中,找到用戶最想要的、或者說是跟用戶搜索的關鍵詞最相關的網頁呢?這就是我們本章要探索的內容。

在前文「??搜索引擎告訴你如何大海撈針??」中,我們簡要的描述了搜索引擎是如何從成百上千億的網站中,快速的搜索到我們要找的內容。但能夠搜索到結果只是搜索流程中的一部分,還有另一個很重要組成部分 —— 排序。

現在我們隨便搜索一些數據可能都會找到幾十、甚至上百萬條結果,如果是較為熱門的內容甚至會有上千萬條。那如何從這上千萬個網頁中,找到用戶最想要的、或者說是跟用戶搜索的關鍵詞最相關的網頁呢?這就是我們本章要探索的內容。

如何對相關的結果排序

“相關”這個詞其實并不是一個非黑即白的量化指標,例如大家去搜索「XXX 車測評」或者「XXX 車怎么樣」的關鍵字時,假設搜索到了兩篇文章:


圖片

張三、李四對XXX車的測評

其文章內容都是在描述這款車,只是角度不同。那這兩篇文章都是符合「相關」的。

接下來我們思考一個問題:

既然兩個網頁都相關,那誰該排在前面、誰該排在后面呢?這個排序的評判標準是啥呢?

我們可以通過“鏈接”的方式來實現。舉例說明,現在有另外的 4 個用戶 A、B、C、D,他們在某些網頁里貼了張三、李四車評網頁的鏈接,通過他們的鏈接,其他的用戶可以跳轉到張三、李四的網頁:

圖片

用戶A、B、C、D貼了張三、李四的網頁鏈接

可以看到,用戶 A 鏈接到了張三的網頁,而 B、C、D 鏈接到了李四的網頁,張三和李四的鏈接比例為 1:3,單從鏈接的數量這個緯度來看,搜索引擎就可以認為李四的網頁應該擁有更高的排名。

大家覺得這樣合理嗎?

可能大家還沒發現問題在哪兒,我把上面的圖換一下內容,大家應該就懂了:

圖片

用戶A、B、C、D的鏈接內容是負面的

可以看到,雖然從鏈接數量上來看,李四更多一些,但這些內容都是負面(咱們先善意假設這些負面內容大概也許可能是真的)。張三雖然只有 1 個鏈接,但對其評價確實積極正面的。這個時候如果搜索引擎把李四的網頁排在前面肯定顯的不合適。(當然,這里不考慮張三的網頁內容質量也很垃圾,只是找的水軍去給的好評)

雖然如此,上面通過鏈接的方式也仍然有效,因為貼鏈接更多的還是用于推薦。但用戶 A、B、C、D 卻沒有上圖中那么理想。因為現實中,用戶其實是有權重的。

引入權重

怎么個權重法呢?

舉個例子,當一個網絡上的普通用戶告訴你,有個護膚的產品巨好用,你的內心 OS Be like:呵呵,用你告訴我?但要是 XX琦直播間 告訴你,這個護膚的產品巨好用,你可能就會:買它!

這就是體現權重對我們決策影響的一個很好的例子,把這個實例代入到上面的圖中,假設用戶 A 是類似于 XX琦直播間 的一個很資深的、廣受好評、廣受信任的車評人,那他的建議權重肯定會大于其他的普通用戶。

但,計算機并不能像人腦一樣判斷某某用戶是個大 V,他的推薦要排在前面,總歸還是需要一個量化的過程,那到底該如何量化呢?底層其實還是鏈接那一套邏輯。

假設用戶 A 是個大 V,他的主頁被很多網頁給鏈接了,我們假設這些“很多”網頁都是一些普通的網頁,沒有其他任何鏈接指向他們,那么這些網頁的權重值就是 1,那么如果有 100 個這樣的網頁都貼了大 V 的主頁,那么大 V 的主頁權重值就是 100,如下圖所示:

圖片

在鏈接的數量模型中加上了權重值

通過對權重值的計算我們得出,張三網頁的排序優先級應該高于李四,因為權重值 100 > 3。

看到這里,大家是不是覺得這樣已經能解決我們開篇的問題了。通過鏈接 + 權重的方式,能夠將相關度較高的網頁排在前面。

不過很遺憾,這套邏輯有個非常大的問題。

鏈接的循環引用

實際的網頁依賴情況可不會像上圖這么的理想、清晰、層次分明,很多的網頁可能會存在循環依賴的情況,比如:

圖片

網頁在實際的環境中可能存在循環引用

碰上這種循環我們都知道會發生什么,部分網頁的權重值會不停的循環、不停的增加,而這顯然是不合理的。

隨機訪問

為了解決這個問題,我們需要使用“隨機訪問”。

簡要描述就是:從網上隨便找個網頁開始訪問,然后隨機點一個鏈接,然后跳到下一個網頁再執行同樣的操作。除此之外,“隨機訪問”還有一個機制:由 15% 的概率不隨機從當前網頁點鏈接了,而是直接跳到已經訪問過的頁面。

麻瓜描述就是:跟我們平時“網上沖浪“干的事差不多,就好像大家在手機上刷 B 站,點一個首頁推薦視頻,然后這個視頻下面還有推薦,再點,然后繼續看關聯的視頻,然后當你命中了”15%“的概率,厭倦了,就瘋狂右滑回到首頁,繼續點其他的視頻,再重復這個過程。

然后,這套算法會記錄每個網頁被訪問的次數。因為是隨機訪問,所以當某個網站被其他的網站引用越多,它被訪問到的概率就越大。而這個被訪問的次數,就是它的權重了。

由于整套的隨機訪問是有總次數的限制,并且即使網頁之間的鏈接依賴存在循環,也不會導致權重無限次的增加,因為有 15% 的概率重訪問。這樣一來就能能夠解決上面的死循環問題。本質上,隨機訪問的底層邏輯還是依賴權重的思想,只不過權重的計算模式稍微換了一下。

總結

上面這一套算法也叫 PageRank,由 Google 的兩位創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)在 1998 年的一篇論文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》中提出。Page 是一語雙關,它既是創始人的名字,也代表網頁的排序。

只不過實際中的情況肯定只會更復雜,所以實際的隨機訪問算法和上面描述的略有不同。舉個例子,我想要推廣我的網頁 XX,那我可以搞一堆其他的無關緊要的網頁,在里面鏈上網頁 XX 的地址,以此來刷權重值,而這明顯是不符合預期的。并且,成百上千億的網頁,如果真的要運行隨機訪問算法,耗時可想而知,所以 PageRank 并不能被實際應用。并且實際的生產場景,不可能只通過這一個緯度來評判網頁的重要性。

不過,PageRank 的核心思想 —— 網頁權重值的傳遞仍然是有效的。

責任編輯:姜華 來源: SH的全棧筆記
相關推薦

2023-01-11 09:37:37

搜索引擎排序

2022-10-08 09:13:18

搜索引擎?站

2011-06-20 18:23:06

SEO

2009-07-30 10:40:56

搜索引擎優化網站

2025-02-28 01:00:00

2020-03-20 10:14:49

搜索引擎倒排索引

2017-08-07 08:15:31

搜索引擎倒排

2022-03-31 20:15:21

圖像搜索引擎

2015-08-31 10:41:58

搜索引擎Google云應用

2009-02-19 09:41:36

搜索引擎搜狐百度

2010-04-20 11:43:46

2010-09-01 16:45:28

2012-09-07 13:22:21

搜索搜狗

2009-09-22 16:23:52

搜索引擎

2010-03-11 19:06:52

Python編程語言

2017-08-21 11:14:36

2020-02-19 13:38:42

開源索引互聯網

2009-12-10 15:09:46

PHP搜索引擎類

2023-09-21 15:05:12

ChatGPT搜索引擎

2016-12-26 13:41:19

大數據搜索引擎工作原理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日爱视频 | av免费入口 | 久久久精品一区 | www.五月婷婷.com| 97视频久久 | 精品国产高清一区二区三区 | 欧美国产日韩一区二区三区 | 欧美日韩一区精品 | 一级女毛片 | 毛片免费视频 | av网站免费观看 | 麻豆av电影网 | 欧美在线视频免费 | 日韩一二区 | 国产在线小视频 | 日韩伦理一区二区 | 久在线 | 欧美一级片在线 | 日本中文在线 | 亚洲视频中文字幕 | 97精品国产| 亚洲精品电影网在线观看 | 欧美日韩高清一区二区三区 | 日本精品一区二区三区视频 | 亚洲一区成人 | 欧美午夜精品久久久久久浪潮 | 久久精品99| 欧美黑人激情 | 国产精品91久久久久久 | 国产午夜精品久久久 | 亚洲精品久久久蜜桃 | a久久久久久 | 亚洲国产精品99久久久久久久久 | 91啪影院 | 日韩看片 | av入口 | 亚洲不卡一 | 亚洲人在线 | 99精品国产一区二区青青牛奶 | 中文字幕在线免费 | 亚洲高清在线 |