說說瀏覽器份額數(shù)據(jù)兩家打架的原因
目前定期發(fā)布全球瀏覽器市場份額的公司有兩家, StatCounter 和 NetApplications 。它們的統(tǒng)計,都是基于網(wǎng)站服務器端對瀏覽器訪問記錄的計算。當瀏覽器訪問網(wǎng)站時,瀏覽器向服務器發(fā)送的報文頭部包含著關于瀏覽器版本的聲明(嚴格說來,這個聲明也可偽造),服務器據(jù)此識別訪問 來自哪個瀏覽器。 StatCounter 和 NetApplications 通過向服務器部署統(tǒng)計工具獲得相應統(tǒng)計數(shù)據(jù),然后對數(shù)據(jù)進行處理得出結論。
就像我們反復看到的,兩種市場份額統(tǒng)計的結論總是差異巨大。按照 StatCounter 的數(shù)據(jù),到了六月份 Chrome 的市場份額是32%,略高于ie。而按照 NetApplications 的統(tǒng)計, Chrome 只有19%,遠低于54%的ie。
后文并不準備討論這兩種市場份額數(shù)據(jù)誰更好的問題,只是單純說說統(tǒng)計差異是怎么產生的:
一、樣本差別
目前 StatCounter 部署統(tǒng)計工具的網(wǎng)站有四百萬左右,而 NetApplications 有三十萬左右, StatCounter 的統(tǒng)計樣本比 NetApplications 大得多,因此理論上說,這對 StatCounter 獲得更接近總體情況的數(shù)據(jù)更有利。不過顯然四十萬網(wǎng)站也已經(jīng)是一個很大的樣本了,已經(jīng)足夠得出相對準確的結論。這不會是導致兩者數(shù)據(jù)出現(xiàn)如此巨大差距的重要原因。
二、Chrome 的預加載問題
Chrome的地址欄輸入使用和Google即時搜索類似的技術,記錄用戶的擊鍵,預先加載用戶可能會輸入的網(wǎng)址。這項技術是 Chrome 17開始使用的,顯而易見的,如果預加載產生的流量在總流量中占有很大份額,那么 Chrome 17推出后, Chrome 瀏覽器的流量份額將會有一個突然性的提升,然而事實是并沒有,那個月 Chrome 的流量份額提升量也只有1%出頭。即便這1%的提升全是由預加載產生的,也不會對最終的結論有很大的影響。所以這也不會是兩種統(tǒng)計口徑差別巨大的原因所在。
三、流量調整
StatCounter的統(tǒng)計,直接使用服務器監(jiān)控到的原始流量數(shù)據(jù)。而 NetApplications 則以國家和區(qū)域為單位對流量進行重新調整, NetApplications 認為,由于各國人對網(wǎng)站的偏好不同(以及某些管制性因素,你懂的),導致這些服務器上監(jiān)控到的流量數(shù)據(jù)并不能代表實際情況,比如某幾億網(wǎng)民的互聯(lián)網(wǎng)大國,在這些網(wǎng)站上留下的訪問記錄少得可憐。怎么處理呢?加權調整。打個比方說,把某互聯(lián)網(wǎng)大國的在服務器上監(jiān)控到的可憐流量放大十倍,記錄到一個ie或者 Chrome 用戶,就當作是十個,以便讓它產生的流量和它的大國身份匹配。
StatCounter和 NetApplications 部署統(tǒng)計工具的服務器主要在歐美,服務器記錄下的用戶瀏覽器偏好受歐美用戶影響偏大,而歐美也是 Chrome 普及率很高的區(qū)域。因此進行加權調整,是有利于ie的。把 StatCounter 的數(shù)據(jù),用同樣方法調整過后,ie的市場份額上升了近10個百分點。應該說這項調整產生的統(tǒng)計差異是很大的,是兩種統(tǒng)計方法產生的巨大數(shù)據(jù)差異主要來源之一。
四、市場份額計算標準
重復下前面的話, StatCounter 的統(tǒng)計,是直接使用服務器監(jiān)控到的原始流量數(shù)據(jù)。 StatCounter 所說的市場份額,就是指不同瀏覽器各自產生的流量數(shù)據(jù)份額。
而netapplication再次采用了比較復雜的調整辦法,它比較傾向于以用戶數(shù)量作為市場份額的標準。一個瀏覽器在一天之內瀏覽了100個網(wǎng)頁,另一個瀏覽器在一天之內只打開了一個網(wǎng)銀頁面,按 NetApplications 的想法兩者市場份額是無區(qū)別的,都是一個用戶。
不過由于服務器端并不能直接像獲得瀏覽器版本號那樣,獲得一個精確度很高的用戶身份***識別標識。所以 NetApplications 的統(tǒng)計還存在復雜的技術問題。如何確認哪些訪問時來自同一個用戶,哪些不是呢?原則上來說,這只有兩種可行性方案,然而兩種方案都很難說有多準確:一個方案是追蹤cookies,網(wǎng)站服務器向瀏覽器cookies里寫入痕跡,使得當這個瀏覽器再次訪問它的時候,可以依據(jù)cookies知道它曾經(jīng)到此一游。然而如果用戶中途清空了cookies呢?或者進一步的,如果用戶一直開啟著隱私瀏覽模式向服務器聲明自己不接受cookies寫入的話,那么瀏覽器的每一次訪問,都會產生了一個“新用戶”。這里順便說說,微軟會在ie10中默認開啟隱私瀏覽模式,顯然這會在基于cookies追蹤的統(tǒng)計里制造大量ie用戶。cookies之外的另一個方案是追蹤ip,服務器記錄每一次訪問頁面的ip來源,同一個ip就作為同一個用戶。但是這個方案的缺陷也很顯然,因為沒法識別多用戶共用ip的情況,或者一個用戶使用動態(tài)ip的情況。總而言之,要在統(tǒng)計層面上依靠網(wǎng)站服務器來嚴格識別用戶基本是不可能的,所以 NetApplications 調整出來的用戶量數(shù)據(jù),跟實際差別有多大是很難確切說清楚的。
不過拿這個數(shù)據(jù)跟 StatCounter 的數(shù)據(jù)對比差異,刨掉前面說到的以國家為單位加權調整流量產生的差異后,ie的市場份額再次上升了10%。這至少能說明,ie用戶的平均網(wǎng)頁訪問量是低于 Chrome 的。或更簡單的說,經(jīng)常用瀏覽器的用戶往往更偏好Chrome 。