社會(huì)化搜索的簡(jiǎn)介
最近保持每天瀏覽2,3個(gè)新的創(chuàng)業(yè)網(wǎng)站的習(xí)慣。在這個(gè)過(guò)程中,我注意到一個(gè)現(xiàn)象,社會(huì)化搜索(Social Search)這個(gè)關(guān)鍵字多次出現(xiàn),關(guān)于Social Search, google 上有1.8億個(gè)網(wǎng)頁(yè)的搜索結(jié)果。也有超過(guò)40個(gè)網(wǎng)站號(hào)稱自己是社會(huì)化搜索 – 我想如果國(guó)內(nèi)的業(yè)內(nèi)人士注意到這個(gè)并且開(kāi)始拷貝的話,這個(gè)數(shù)字應(yīng)該是400 個(gè)。此外,在百度搜索“社會(huì)化搜索”,結(jié)果大約只有一百萬(wàn)個(gè)(2009年3月)。所以有必要做一點(diǎn)稍微深入的研究。
首先,需要定義社會(huì)化搜索 (social search)。
在Wiki里有這樣的定義:“Social searchor a social search engine is a type of web search method that determines the relevance of search results by considering the interactions or contributions of users” – 社會(huì)化搜索或者社會(huì)化搜索引擎是搜索結(jié)果考慮用戶的交互性和貢獻(xiàn)的一種網(wǎng)站搜索方法。
在百度百科里,對(duì)社會(huì)化搜索也有說(shuō)明,但是基本算離題萬(wàn)里的胡說(shuō)八道。讀者可以自己點(diǎn)這里去看看。
當(dāng)然,關(guān)于搜索我們不能忽略來(lái)自Google 的意見(jiàn)。這些意見(jiàn)大多來(lái)自著名的美女副總裁 --- Marissa Mayer。其中最著名的有兩份,一份來(lái)自 VentureBeat 的2008年1月的訪談,標(biāo)題是“社會(huì)化搜索就是未來(lái)”,一份是2008年9月10日GOOGLE的名為“搜索的未來(lái)”的官方BLOG。中文版可以點(diǎn)這里。
在這些資料中,MM對(duì)社會(huì)化搜索的定義更加寬泛:“We believe social search is any search aided by a social interaction or a social connection…”我們相信社會(huì)化搜索是任何運(yùn)用社會(huì)性交互和聯(lián)系來(lái)協(xié)助的搜索。
Wiki 的定義比較準(zhǔn)確,但仍然沒(méi)有足夠考慮到社會(huì)化的因素。也許我們可以把它們合在一起,定義社會(huì)化搜索如下:
社會(huì)化搜索是指考慮了社會(huì)化因素例如交互,聯(lián)系,用戶行為模式等的網(wǎng)絡(luò)搜索方法。
社會(huì)化搜索的概念,起始于2004年,但是真的被重視和發(fā)展,是從2008年開(kāi)始的。以這個(gè)美女副總裁自己為例:2007年8月,她說(shuō),還沒(méi)有看到社會(huì)化搜索的前景;2008年1月,開(kāi)始說(shuō) 社會(huì)化搜索就是未來(lái);而08年9月,更發(fā)表了正式的搜索的未來(lái)的官方博客。
你可以喜歡任何顏色,但我們只提供黑色的車 -- 福特
搜索引擎大致可以劃分為三個(gè)階段:
l 純粹的機(jī)器算法階段:這個(gè)階段可以上溯到Y(jié)AHOO的第一個(gè)目錄,而Google 的PR,雖然有據(jù)說(shuō)超過(guò)200 個(gè)參數(shù) – 比如鏈接數(shù)目,域名注冊(cè)時(shí)間等--的加權(quán)調(diào)整,目前能提供給用戶的搜索答案,仍然是千人一面的結(jié)果。無(wú)論你是非洲的黑人小孩,還是紐約的白人老頭。
l 基于用戶的算法(user-based)優(yōu)化:在這個(gè)階段,用戶的參與被加入考慮。運(yùn)用的技術(shù)包括,專家打分,多用戶投票,META-TAG,點(diǎn)擊跟蹤技術(shù)等等。基本的思路是,用戶參與決定哪些搜索結(jié)果比較重要。類似的嘗試是Google+Digg. 很遺憾,搜索結(jié)果還是統(tǒng)一的唯一結(jié)果。而且還有一個(gè)問(wèn)題:最熱門的答案,一定就是最準(zhǔn)確的嗎?
l 個(gè)性化的搜索 (Subjective):每一個(gè)用戶,獲得不同的搜索結(jié)果。而社會(huì)化搜索,是其中的一個(gè)方向。這個(gè)個(gè)性化,可以來(lái)自如下的信息:
n 該用戶的個(gè)體搜索歷史 – 可以從Cookie 獲得
n 該用戶的行為,興趣模式 – 可以從社會(huì)化網(wǎng)絡(luò)獲得
n 用戶自己提供的興趣 – 用戶自己提供
在福特汽車的黑T時(shí)代,老福特可以只提供黑色的車。但是在門檻很低互聯(lián)網(wǎng)上,只提供黑色車的商業(yè)環(huán)境,正在被挑戰(zhàn)。就算Google 自己,也在致力于社會(huì)化搜索的研究。Google 也在廣告系統(tǒng)中開(kāi)始試驗(yàn)Cookie 和用戶自己提供信息的辦法。
從5W 說(shuō)起
如果我們借用新聞的5W 概念,也許可以推導(dǎo)出后面的一個(gè) HOW。
和目前所有人面對(duì)同一搜索結(jié)果相比,個(gè)性化的搜索需要搜索的結(jié)果來(lái)源于如下的信息:
l WHO:搜索引擎開(kāi)始試圖理解屏幕前輸入查詢關(guān)鍵字的用戶是怎樣的人。或者叫市場(chǎng)細(xì)分。一個(gè)期貨商搜索“天氣”和天文學(xué)家搜索“天氣”,背后關(guān)注的興趣點(diǎn)顯然不同。而這個(gè)社會(huì)身份的認(rèn)定,來(lái)自于個(gè)人的網(wǎng)絡(luò)行為模式,搜索歷史和他參與,聯(lián)系的網(wǎng)絡(luò)人群。
在這里這個(gè)WHO,往往還具備了一個(gè)社會(huì)人的很多屬性。或者可以用消費(fèi)者細(xì)分的幾個(gè)緯度來(lái)進(jìn)行區(qū)隔。這些緯度包括:種族,文化,亞文化,職業(yè),年齡,性格,消費(fèi)習(xí)慣等等。而很多信息,都可以從其它途徑例如FACEBOOK 里的好友,個(gè)人信息等獲得。
l WHEN: 很遺憾,目前的搜索結(jié)果是按照相關(guān)性排列的,而時(shí)間戳的問(wèn)題一直沒(méi)有解決。我們知道,網(wǎng)絡(luò)廣告已經(jīng)可以提供按不同時(shí)間顯示不同內(nèi)容的服務(wù)了。但是在搜索結(jié)果上,如何做到與時(shí)俱進(jìn),還有待考慮。
l WHERE: 雖然有很多本地搜索和生活型網(wǎng)站的出現(xiàn),但如果搜索引擎能從IP 所在地,提供更相關(guān)的搜索結(jié)果,對(duì)相當(dāng)多搜索者,是有用的。-- 百度前 CTO 說(shuō),本地搜索大約是搜索總量的40% 。
l WHY: 搜索是為了獲得答案。目前的基于分詞匹配技術(shù)的算法,不能理解問(wèn)題背后的原因。換言之,不能理解“需求背后的需求”。在搜索引擎的發(fā)展方向上,語(yǔ)義理解或者說(shuō)自然語(yǔ)言搜索一直是一個(gè)重要分支,但是進(jìn)展不大,比較有名的是Powerset。社會(huì)化搜索,一般可以從who來(lái)推導(dǎo)這個(gè)why, 也有直接繞過(guò)文本分詞匹配的一些嘗試。