一淘公達:解決個性化搜索中的時效性與數據碎片化
原創搜索引擎誕生到現在已經有幾十年歷史,期間搜索技術一直在不斷的變化,從最初的目錄索引到關鍵詞,以及目前正在發展階段的語音搜索、圖片搜索等等,搜索引擎在不斷進化當中。如果現在來談談搜索引擎的下一個趨勢是什么,那么個性化搜索引擎無疑是最受關注的方向,并且將成為搜索引擎的未來。因為,當前的搜索引擎盡管還能給用戶提供一些有用的東西,但是因不同地區、個人興趣習慣、社交關系等因素去搜索時,得到的搜索結果卻不盡人意,這是目前搜索引擎需要改進的地方。
在阿里巴巴集團今年主辦的ADC•阿里技術嘉年華這一場專屬于<互聯網工程師>的“技術盛宴”,倡導<干貨分享>的大會上,51CTO記者有幸采訪到了一淘的個性化搜索專家 陳曦(公達)老師,主要針對目前個性化搜索中面臨的一些重要的問題采訪,比如SEO與個性化之間的問題,防止過度個性化,以及在個性化搜索中的時效性與數據碎片化對個性化搜索的影響。
下面是采訪實錄:
記者:個性化搜索這門技術是怎么起源的?它最新的進展是什么樣的情況?
公達:最早做個性化的應該是谷歌,像他們這些通用的搜索引擎,到現在阿里也開始做個性化,而他們做的效果都不是特別滿意。因為到目前為止沒有看到特別好的個性化搜索的產品,我們淘寶做這個個性化搜索,其實有一些自己的優勢。因為我們有更加忠實的用戶,有更豐富的數據,所以我們應該可以達到更好的個性化的效果。我們也是最近這么一兩年來才開始做個性化的搜索。
記者:那就是說阿里在投入個性化搜索也就是最近一兩年的事。到現在為止取得了怎么樣的成績?你們是怎么判斷自己的成績?怎么去衡量自己的成果?有沒有覺得不滿意?
公達:我們自己肯定是在個性化有自己的一些理解,比如說我們希望個性化搜索能達到什么樣的效果,我們實現的時候,我們肯定會先按照我們希望的效果來做,等做出來了一個初步的效果之后,我們會讓用戶來通過實際的一些用戶來給我們評價,到底我們的效果是不是他們滿意的,我們是通過這樣來評價的。
記者:在個性化搜索系統中,它的難點在于什么地方?它是技術難點還是產品難點?
公達:它應該是兩方面難點都有的,比如說技術上面的話,最困難的是說我們怎么樣能夠把用戶的個性化、個性信息描述準確。比如他的性別,或者是他喜歡的衣服的風格等等,我們怎么樣能夠給他預測準。第二個是預測準了之后,他到底是不是喜歡?這個其實也是因為不同的人,他對自己一些購物的特點都是不太一樣,有的人雖然以前喜歡某個東西,但是突然他的信息又變化了。這種興趣的不確定性,這是最困難的一個地方。
從產品上面來講,其實也就是這個用戶到底能不能夠更加適用個性化需求的結果,他會不會覺得我們預測錯了,或者怎么樣的話,可能以后就不太會再用了。我們希望能夠盡量預測準,那樣他才會一直用下去。
記者:個性化搜索技術,在一個典型的個性化搜索團隊里面,大家都是什么樣的人員構成,都有哪些職責分工?
公達:首先我們有很多人是在做那些基礎的數據,比如說可能會計算用戶的各種偏好,這是屬于很基礎的數據。我們目前會有一個很大的團隊來做這件事情。包括用戶的各種數據,像他的年齡、性別,包括他的職業,一些購物的興趣點之類的事情,我們都有一個比較大的團隊來計算。第二個,我們會有系統方面的一些工作,比如說我們要搭建一個個性化的搜索的系統,我們有實時的個性化系統,我們搜索引擎也會支持更多個性化。第三部分,算法方面需要利用用戶的一些個性化信息,然后給他推出一個合適的搜索結果。其實就是數字與系統和算法這三部分,是我們個性化主要的部分。
記者:剛才你談到會有很大一個團隊專門在做數據的搜集整理,對于個性化推薦來講會不會有很多用戶覺得侵犯到他們的隱私,你們是怎么看待這個問題?
公達:目前的話,我們倒是沒有收到明顯的用戶投訴說我們收集到了他的隱私,其實不太正常的。因為用戶的行為在淘寶上有紀錄應該是一個很正常的,大家都可以認可的事情。比如說你買了什么樣的東西,這個肯定是需要有紀錄的,而且自己也能查看的,當然淘寶肯定是有數據。如果說用戶實在是不想我們收集的話,我們以后也會提供這樣的一個功能,我們可以不對他做個性化或者怎么樣,都是可以。
記者:在現在的互聯網企業,在什么時候才能需要到一個個性化搜索?
公達:那肯定是它的一個通用的搜索,如果說已經做的比較成熟了。對用戶的數據也搜集的足夠多了,如果說他有一個比較穩定的客戶群,這個時候他可以考慮給他一些穩定的客戶,給他們一些定制的個性化的結果。
記者:在實時計算和離線計算對于個性化搜索哪個占的優勢比較多一些?你們應用比較多的是哪一個?
公達:這個應該兩方面都是占的比較多的,因為離線計算的話,它是對于那種長期的偏好是比較重要的,實時計算的話對于當前用戶的時時的偏好是非常重要的。這方面目前在規劃里面都是很重要的兩個方面。
記者:個性化搜索有一個行為叫做時效性,我聽你在演講過程當中也有講過這個問題,你們是怎么去處理這個問題?
公達:我們首先是用戶默認的,或者一個長期的偏好的模式,比如說三個月或者六個月的興趣來算的,他實時計算當天的行為就是會放到時時的數據里面。這個實時的數據,當它達到了一定的精確度之后,就會來修改他長期的偏好,所以它應該是一個互相結合的過程。
記者:你們怎么去排除一些過期的行為?比如說比較久的?這些可能在用戶當中已經并不存在了,或者他們那些行為在過程當中也會改變的等等?
公達:比較久了,那就是從長期模型里面找。長期模型里面我們肯定會考慮所謂的時間,越近的行為肯定是越重要的,越遠的行為越不重要。所以既然發生的時間很久了,那么它的重要性就降低了,這樣也會被新的行為所取代了。
記者:你們一般做這塊的話,都是以最新的一些行為作為標準,他以前的一般就不會考慮。
公達:如果他最近的行為已經足夠豐富了,那么他以前的行為肯定不重要了。但如果他最近沒有什么行為,那他很久以前的行為也是有一定的好處的。
#p#
記者:在個性化搜索當中,個性化定制的功能在一淘中用戶體現的是怎么樣的?有沒有好的反饋?
公達:個性化定制,目前用戶還是比較多的,因為已經上線了一段時間了,當然用的人還是比較多的。這些用的人他會通過這個性化定制可以修改他們個性化的信息。
記者:個性化搜索,它有數據挖掘技術在里面,而對于數據的來源要求還是挺高的。在這一塊,對于數據的碎片化,你怎么去解決這個問題?
公達:碎片化其實就是說這個數據很稀疏,我們是盡量豐富數據的,比如說我們可以用三個月或者六個月,或者一年的數據,用的數據越多,肯定它的吸收性能也就越好了。我們會用一類人的一些數據,比如說對于用戶來說,我們是給他分一些群體,而不是說每個用戶都是不一樣,然后再保密。我們會給他一些比較寬泛的定義,比如說像價格檔位,我們也可以分五檔,并不是說分十檔,或者二十檔,那可能太稀釋了。
記者:很多時候大家討論個性化搜索對于一個網站的SEO其實是有一些影響的,你怎么看待這個問題?就目前大部分的網站做SEO主要是排名的競爭,很少會用到個性化搜索,你怎么看這個問題?
公達:個性化搜索的話,其實是要求他,每一個賣家能夠給它提出了更高的要求。就是說它需要服務好每一類人,如果說以前的話他服務好大眾的人就行了。但是現在如果他想拿到更多的流量,他就需要對每一類人都服務的好,這樣他在每一類人的排序上面,可能都會比較前面。所以對于個性格搜索 來說,需要考慮的更多了一點。
記者:在淘寶上,我看到很多賣家,在關鍵詞上面,他做了很多SEO優化,這上面什么關鍵詞都有。對于個性化搜索來說,它有沒有能夠精準的定位,賣家有沒有什么影響?我是說在搜很多東西的時候,賣家的關鍵詞幾乎什么都覆蓋掉了,對個性化搜索有什么影響?
公達:如果說體現的關鍵詞太多,如果說太多的話,而且是一個不正當的,甚至和寶貝并不符合的關鍵詞,那可能本身被排起來,他是不利的。因為我們對這種亂填的關鍵詞會有一定的處罰,如果都是正常地描述一個寶貝的關鍵詞,那肯定是不會有太大影響。即使是個性化也是都會考慮的。
記者:你目前在做這一塊的話,能講一些目前的難點嗎?就是比較困難的地方。
公達:困難的地方,我們怎么樣能夠把用戶的興趣描述的更準了。比如說他的購買力、他的性別等等,就是說越準確的話,用戶的體驗就會越好。如果給他預測錯的話,他的體驗就不是很好。甚至是或者會修改,或者會關閉個性化。如果說越準確的話,他肯定是越喜歡用。所以我們會讓用戶的體驗更加地好。
記者:在目前的移動互聯網發展這么快,在移動端,用戶對搜索的需求還是挺高的。一般他想定位一個產品,搜索一個產品的話,他兩到三步就能夠精準地定位到這個內容。一淘的移動端在這方面做的如何?
公達:移動端的話,目前肯定會考慮。比如說手機的類型是iPhone還是Android之類的,或者也會考慮其他的地方。這些信息的話,肯定是一個個性化的重要信息。但是在移動上面具體有什么樣的特點?這肯定也是通過模型計算出來的。因為移動上面我們也會有移動方面個性化的模型,上面可能會體現出移動上面不同的特點來。
記者:在個性化搜索,目前你認為它對一個傳統搜索,是不是一個發展的趨勢?未來能不能代替傳統搜索?
公達:至少從電子商務這個方面來說,我覺得個性化還是很重要,未來肯定是會越做越多的。因為我們最終的理想肯定是讓每一個用戶都能達到最好的體驗,肯定是對每個用戶的個性,如果說都能夠滿足的好,肯定他的體驗是最好的。