谷歌算法揭秘:一次搜索請求平均往返2400公里
谷歌搜索演進
3月 12 日消息,作為全球使用最廣泛的搜索引擎,谷歌算法一直有一層神秘面紗。近日谷歌工程總監(jiān)斯科特·霍夫曼向騰訊科技講述谷歌算法幕后故事,稱 2011 年有 520 多項改進,自 2003 年到現(xiàn)在,Google 搜索已解決 4500 億個搜索請求。
據(jù)了解,斯科特·霍夫曼加入谷歌已逾 5 年,負責領導搜索質量評估和移動搜索團隊,還撰寫數(shù)十篇學術論文,內容涵蓋信息檢索、機器學習和信息提取領域,專注搜索領域已超過 15 年,對谷歌算法有很高發(fā)言權。
斯科特說,十年前搜索可能只是針對于關鍵詞進行意思和上下文匹配,現(xiàn)在谷歌更了解用戶想干什么,而不是表面字詞匹配。搜索引擎呈現(xiàn)結果給用戶看起來比較簡單,但實際背后有一系列復雜流程,并在 1 秒鐘內完成。“谷歌通常只需0.25秒便可對搜索請求做出回應,而人平均每眨一次眼睛需0.1秒。”
谷歌算法原理
談及谷歌算法原理,斯科特說最基本的概念是索引,即谷歌搜索機器人掃描或搜索幾十億網(wǎng)頁后建立索引,再把索引庫分成幾部分,放在幾千臺計算機上,再復制到全球各地數(shù)據(jù)中心去,這樣谷歌就可以在全球各地完成搜索任務。
谷歌算法的流程是用戶提交搜索請求,根據(jù)用戶具體地理位置,谷歌將搜索請求發(fā)送到全球各地數(shù)據(jù)中心,數(shù)據(jù)中心再把需求散發(fā)到幾千個計算機上去,根據(jù)目錄和用戶提交請求的關鍵詞匹配,找到正確郵件或網(wǎng)頁。谷歌從中挑選相關性最高且最新的一些數(shù)據(jù),或搜索結果,再把這些搜索結果根據(jù)不同屬性和指標排名,確定最合理搜索引擎結果相匹配。平均來說,谷歌每一個搜索請求,往返于電腦和數(shù)據(jù)中心單程距離是 750 英里。
谷歌每年會對一些新構思進行必要性評估,如果評估后認為合理就會做一些小規(guī)模試驗,主要是請一些獨立評估員,針對幾百個搜索請求做兩組結果來進行對比,一種是使用普通搜索方法做基本組,另一個是對比組,采用新構思。比較這兩組搜索結果哪個相關性和搜索質量更高。之后在通過在線實時實驗隨機挑選用戶參與新構思的體驗。
“如果你是一個谷歌用戶,而且經(jīng)常使用谷歌搜索,可能在不知不覺間,已參與在線實施的試驗,你所得到的搜索結果,也許就是用新構思方法得到的搜索結果。谷歌在任一時刻都在進行 200 多項在線實時試驗。”
谷歌算法搜索體驗提升的三部曲
通過這些實驗,谷歌可以不斷提升用戶搜索體驗,諸如在搜索結果中剔除垃圾信息;根據(jù)用戶需求改變搜索界面呈現(xiàn)的結果數(shù)量;相同詞在不同地域搜索,呈現(xiàn)的結果不同。斯科特透露,谷歌在 2011 年進行了 41931 次必要性評估、9250次小規(guī)模試驗、7363項在線實時實驗,最終完成了 520 多項改進。
谷歌搜索排名
斯科特指出,谷歌對不同搜索請求的衡量指標不同,比如查某一個疾病問題,用戶最重視的是網(wǎng)頁權威性有多高,而不是呈現(xiàn)某一個博客談到這種疾病。在這樣搜索情況下,網(wǎng)頁權威性權重最高。此外,搜索的相關性還與區(qū)域位置和時間相關,比如用戶人在北京,搜索上海餐館的價值就不大。再如搜索一個重大事件,會發(fā)現(xiàn)這個重大事件發(fā)生的后一天得到的搜索結果和前一天搜索結果完全不同。
據(jù)斯科特介紹,谷歌搜索算法進行了一系列重大改進,包括新鮮度算法調整、優(yōu)質網(wǎng)站算法調整、頁面布局算法調整等部分,其中,新鮮度算法調整是指在某些情況下,Google 需要為用戶提供最新搜索結果,比如即時新聞、定期發(fā)生的重大事件以及內容頻繁更新的話題等。如果搜索“奧運會”,用戶會得到與即將舉辦的倫敦奧運會相關的最新搜索結果,而非關于 1984 年奧運會的陳舊信息。
優(yōu)質網(wǎng)站算法調整對包含原始信息、研究調查、深度報道、精準分析等內容的高質量網(wǎng)站十分有利,提高了它們在搜索結果中的排名。頁面布局算法調整這一改進關注用戶在點擊搜索結果后所看到的網(wǎng)頁布局,提升網(wǎng)頁信息的豐富程度 ,提高信息容易被搜索到的網(wǎng)頁的排名。
斯科特稱,隨著 Facebook、Twitter 這些社交化網(wǎng)站發(fā)展,個人化的搜索結果會越來越重要。谷歌近年來推出 Google+ 等產品,在搜索中也融入了社交化的因素。從谷歌來說,會不斷把社交媒體信息整合進來。
原文鏈接:http://tech.qq.com/a/20120312/000083.htm
【編輯推薦】