成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌搜索算法內幕被扒,2500頁巨細文件實名泄密!搜索排名謊言被揭穿

人工智能 新聞
就在剛剛,一份2500頁的內部文檔泄露,谷歌搜索算法的內幕,讓不少人大跌眼鏡。

日前,谷歌2500頁的內部文檔被泄露,揭示了搜索——「互聯網最強大的仲裁者」的運作方式。

爆料人是SparkToro的聯合創始人兼CEO,他在自家網站上發表博客文章,宣稱「一位匿名人士與我分享了數千頁泄露的谷歌搜索API文檔,SEO中的每個人都應該看到它們」!

圖片

多年來,Rand Fishkin一直是SEO領域(Search Engine Optimization,搜索引擎優化)的頂級代言人,「網站權威性」(Domain Rating)這個概念就是他提出的。

既然在這個領域德高望重,Rand Fishkin爆料之前自然要對這位不明身份的匿名人士小心查驗。

上周五,在發送了幾封電子郵件之后,Rand Fishkin與這位神秘人進行了視頻通話,當然,對方并沒有露臉。

此次通話讓Rand了解了這份泄密文件的更多信息:這是一份超過2500頁的API文檔,其中包含14014條Attributes,這些屬性似乎來自Google的內部「Content API Warehouse」。

根據文檔的提交歷史記錄,該代碼于2024年3月27日上傳到GitHub,直到2024年5月7日才被刪除。

通話結束后,Rand確認了匿名人的工作經歷和他們在營銷界共同認識的人,他決定滿足匿名人的期望——發表一篇文章來分享這次泄露,并駁斥了谷歌員工「多年來一直傳播的一些謊言」。

圖片

Matt Cutts、Gary Ilyes和John Mueller否認谷歌在多年來將基于點擊的用戶數據用于排名

Rand的文章談到了沙箱、點擊率、停留時間等影響SEO的因素,而這正是谷歌之前極力否認的。

文章一經發布,果然立刻引發了輿論嘩然,尤其受到了SEO圈的特別關注。

另一位SEO專家Mike King也發表文章,揭示谷歌「算法的秘密」。

Mike King表示,「泄露的文件涉及谷歌收集和使用哪些數據、谷歌將哪些網站提升為選舉等敏感話題、谷歌如何處理小型網站等主題。」

諸多信息表明,谷歌多年來并未完全如實報道,「文件中的一些信息似乎與谷歌代表的公開聲明相沖突。」

面對大家的質疑,谷歌選擇沉默,拒絕對此次爆炸性泄漏事件發表評論。

正主沒有發聲,反倒是此前匿名提供消息的神秘人士露面了。5月28日,神秘人終于決定挺身而出,發布了一段視頻,在視頻中公布了他的身份。

他叫Erfan Azimi,也是一名SEO從業者,EA Eagle Digital的創始人。

圖片

那么,既然Erfan Azimi提供的文檔來自Google的內部「Content API Warehouse」,我們有必要了解一下什么是谷歌API Content Warehouse,以及這份文檔究竟泄露了哪些內容?

谷歌搜索「黑箱」

這次泄密事件似乎來自GitHub,最可信的解釋與Erfan Azimi在通話中告訴Rand的一致:

這些文檔可能是無意中被短暫公開了,因為文檔中的許多鏈接指向私人GitHub倉庫,以及谷歌公司網站上需要特定認證登錄的內部頁面。

在2024年3月至5月這段可能是偶然的公開時間里,API文檔被傳播到Hexdocs(索引公開的GitHub倉庫),并被其他人發現并傳播。

讓Rand疑惑的是,他確信其他人也有一份副本,但直到此次爆料發生以前,這份文件并沒有被公開討論。

據前谷歌開發人員透露,幾乎每個谷歌團隊都有這樣的文檔,用于解釋各種API屬性和模塊,幫助項目人員熟悉可用的數據元素。

該泄漏信息與GitHub公共倉庫和谷歌云API文檔中的其他信息相吻合,使用了相同的符號風格、格式,甚至流程/模塊/功能名稱和引用。

「API Content Warehouse」聽起來像個技術術語,但我們可以把它看作是給谷歌搜索引擎團隊成員的一份指南。

它就像圖書館里的圖書目錄,谷歌用它來告訴員工有哪些書以及如何獲取。

但不同的是,圖書館是公開的,而谷歌搜索卻是世界上最神秘、防守森嚴的黑匣子之一。在過去的二十多年中,谷歌搜索部門從未發生過如此大規模或如此詳細的泄密事件。

「泄露」了什么?

1. 對用戶點擊數據的使用

文檔中的一些模塊提到了「goodClicks」、「badClicks」、「lastLongestClicks」、印象、壓扁、未壓扁和獨角獸點擊等功能。這些都與Navboost和Glue有關,看過谷歌司法部證詞的人可能對這兩個詞并不陌生。

以下是司法部律師Kenneth Dintzer對搜索質量團隊搜索副總裁Pandu Nayak的交叉詢問的相關摘錄:

Q. 那么請提醒我一下,Navboost是否可以追溯到 2005 年?

A. 在這個范圍內,甚至可能更早。

Q. 它已經更新過了,它已經不是當年的那個Navboost了?

A. 不是了

Q. 還有一個是glue,對嗎?

A. glue只是Navboost的另一個名稱,包括頁面上的所有其他功能。

Q. 好的。我本來打算稍后再談,但我們現在就可以談。就像我們討論過的那樣,Navboost可以生成網頁結果,對嗎?

A. 是的。

Q. glue還可以處理頁面上所有不是網頁結果的內容,對嗎?

A. 沒錯。

Q. 它們共同幫助找到最終顯示在我們搜索結果頁上的內容并對其進行排名?

A. 沒錯。它們都是這方面的信號,是的。

這份泄露的API文檔支持Nayak先生的證詞,并與Google的網站質量專利保持一致。

谷歌似乎有辦法過濾掉他們不想計入排名系統的點擊量,并將他們希望計入排名系統的點擊量納入其中。

他們似乎還能衡量點擊時長(pogo-sticking,指搜索者點擊結果后,因對找到的答案不滿意而迅速點擊返回按鈕)和印象。

2. 征用Chrome的點擊流

谷歌代表多次表示,它不會使用Chrome數據對頁面進行排名,但泄密文檔在有關網站如何在搜索中顯示的部分中,特別提到了Chrome。

泄露文件的匿名消息源稱,早在2005年,谷歌就希望獲得數十億互聯網用戶的完整點擊流,而通過Chrome瀏覽器,他們已經得償所愿。

API文檔顯示,谷歌可以使用Chrome瀏覽器計算與單個頁面和整個域相關的幾類指標。

這份文檔介紹了谷歌如何創建Sitelinks的相關功能,特別有趣。

它展示了一個名為topUrl的調用,即 「A list of top urls with highest two_level_score, i.e., chrome_trans_clicks.」

據此可以推測出,谷歌很可能使用了 Chrome 瀏覽器中網頁的點擊次數,并以此來確定網站上最受歡迎或是最重要的 URL,進而計算出哪些URL應包含在Sitelinks功能中。

在谷歌搜索結果中,它總能顯示用戶訪問量最大的頁面,這是它通過跟蹤數十億Chrome用戶的點擊流得來的。

對于谷歌的這一行為,網友當然表示不滿。

圖片

3. 為嚴肅話題創建白名單

我們不難通過「優質旅游網站」 模塊得出這樣一個推論——谷歌在旅游領域存在一個白名單,盡管尚不清楚這是否專門用于谷歌的「旅游」搜索選項,還是更廣泛的網絡搜索。

此外,文檔中多處提到的 「isCovidLocalAuthority」(新冠本地權威)和 「isElectionAuthority」(選舉權威)進一步表明,谷歌正在對特定域名進行白名單管理,這些域名可能會在用戶搜索極具爭議的問題時被優先顯示。

例如,在2020年美國總統大選之后,某位候選人在沒有證據的情況下聲稱選票被偷,并鼓勵其追隨者沖擊國會山。

谷歌幾乎肯定會成為人們最先搜索這一事件相關信息的地方之一,如果他們的搜索引擎返回的是不準確描述選舉證據的宣傳網站,這可能會直接導致更多的爭論、暴力,甚至是美國民主的終結。

從這個角度上來說,白名單有其現實意義。Rand Fishkin表示「我們這些希望自由公正的選舉繼續下去的人應該非常感謝谷歌的工程師們在這種情況下使用了白名單。」

4. 采用人工評估網站質量

長期以來,谷歌一直有一個名為EWOK的質量評級平臺,我們現在有證據表明,搜索系統中使用了質量評估者中的某些元素。

Rand Fishkin覺得有趣的是,EWOK質量評估者生成的分數和數據可能會直接參與谷歌的搜索系統,而不僅僅是實驗的訓練集。

當然,這些可能「只是用于測試」,但是當瀏覽泄露的文檔時,你就會發現當這是真的,它會在注釋和模塊詳細信息中明確指出。

其中提到的「每份文檔相關性評級」即來自 EWOK 的評估,雖然沒有詳細的說明,但我們不難想象,人類對網站的評估到底有多重要。

文檔還提到了「人工評級」(例如來自 EWOK 的評級),并指出它們「通常只填充在評估管道中」,這表明它們可能主要是該模塊中的訓練數據。

但Rand Fishkin認為這仍然是一個非常重要的角色,營銷人員不應忽視質量評級者對其網站的良好感知和評級有多么重要。

5. 利用點擊數據確定權重

谷歌將鏈接索引分為三個等級(低、中、高質量),點擊數據用于確定網站屬于哪個等級。

- 如果網站沒有被點擊,就會進入低質量索引,鏈接也會被忽略

- 如果網站來自可驗證設備的點擊量很高,它就會進入高質量索引,并且鏈接會傳遞排名信號

一旦鏈接因為屬于更高層次的索引而成為 “可信 ”鏈接,它就可以流動PageRank和錨點,或者被垃圾鏈接系統過濾/刪除。

來自低質量鏈接索引的鏈接不會損害網站的排名,它們只會被忽略。

谷歌的搜索算法可能是互聯網上最重要的系統,它決定了不同網站的生死存亡以及我們在網上所能看到的內容。

可它到底是如何對網站進行排名的,長期以來一直是個謎,記者、研究人員和從事SEO工作的人們都在不斷拼湊這個謎題的答案。

在這次泄漏事件中,谷歌依舊保持沉默,似乎會讓這個謎題長久存在下去。

但這次谷歌有史以來最嚴重的泄密,還是撕開了一個裂縫,讓人們對搜索的工作原理有了前所未有的了解。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-30 07:58:01

谷歌搜索算法

2024-05-29 13:00:19

2025-02-26 05:00:00

DFS算法遞歸

2012-02-29 13:32:28

Java

2022-02-28 10:23:37

搜索競價排名

2009-06-15 09:15:25

谷歌研發團隊必應搜索

2012-08-24 09:16:53

App Store

2018-10-12 15:15:45

電商搜索算法

2023-06-05 10:39:37

谷歌搜索AI 功能

2019-03-29 09:40:38

數據結構算法前端

2017-11-15 11:11:03

谷歌火狐雅虎

2015-07-22 11:47:25

云計算搜索引擎谷歌

2013-04-23 09:31:52

SQL Server

2009-10-24 11:04:15

2014-04-15 15:15:45

加密Google

2012-03-26 10:03:15

谷歌Chrome瀏覽器

2009-06-26 16:05:51

云計算

2009-06-28 21:34:22

云計算IT虛擬機

2020-01-13 08:00:50

云計算行業科技

2019-10-29 15:22:24

Google算法搜索
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲综合色 | 久久久久成人精品亚洲国产 | 日本午夜免费福利视频 | 中文字幕精品一区久久久久 | 亚洲综合在线一区二区 | 成人一区二区三区在线观看 | 一区二区三区av | 国产一区二区精品在线观看 | 69热视频在线观看 | a在线观看免费 | 老司机狠狠爱 | 免费一级毛片 | 91精品国产91久久久久久最新 | 国产精品揄拍一区二区 | av片在线免费看 | 欧美在线亚洲 | 美女天天操 | 大香网伊人 | 不卡在线视频 | 久久综合av| 国产精品久久久久久久久久妇女 | 在线播放精品视频 | 7777在线视频免费播放 | 欧美一级淫片免费视频黄 | 日韩色图视频 | 高清18麻豆 | 99在线资源 | 国产精品特级毛片一区二区三区 | 亚洲精品不卡 | 欧美国产精品 | 中文字幕免费 | 久久久www成人免费无遮挡大片 | 久久久久久国产精品 | 欧美无乱码久久久免费午夜一区 | 亚洲成人精品在线观看 | 亚洲第一成人av | 国产高清亚洲 | 找个黄色片 | 国产一区二区三区四区 | 欧美日韩在线一区二区 | 中文字幕丁香5月 |