一淘公達：解決個性化搜索中的時效性與數據碎片化

作者：小林 2013-08-05 00:38:11

在2013年阿里巴巴集團主辦的ADC•阿里技術嘉年華，這是一場專屬于<互聯網工程師>的“技術盛宴”，倡導<干貨分享>的大會上，51CTO記者有幸采訪到了一淘的個性化搜索專家陳曦（公達）老師，主要針對目前個性化搜索中面臨的一些重要的問題采訪，比如SEO與個性化之間的問題，防止過度個性化，以及在個性化中的時效性與數據碎片化對個性化搜索的影響。

搜索引擎誕生到現在已經有幾十年歷史，期間搜索技術一直在不斷的變化，從最初的目錄索引到關鍵詞，以及目前正在發展階段的語音搜索、圖片搜索等等，搜索引擎在不斷進化當中。如果現在來談談搜索引擎的下一個趨勢是什么，那么個性化搜索引擎無疑是最受關注的方向，并且將成為搜索引擎的未來。因為，當前的搜索引擎盡管還能給用戶提供一些有用的東西，但是因不同地區、個人興趣習慣、社交關系等因素去搜索時，得到的搜索結果卻不盡人意，這是目前搜索引擎需要改進的地方。

在阿里巴巴集團今年主辦的ADC•阿里技術嘉年華這一場專屬于<互聯網工程師>的“技術盛宴”，倡導<干貨分享>的大會上，51CTO記者有幸采訪到了一淘的個性化搜索專家陳曦（公達）老師，主要針對目前個性化搜索中面臨的一些重要的問題采訪，比如SEO與個性化之間的問題，防止過度個性化，以及在個性化搜索中的時效性與數據碎片化對個性化搜索的影響。

下面是采訪實錄：

記者：個性化搜索這門技術是怎么起源的？它最新的進展是什么樣的情況？

公達：最早做個性化的應該是谷歌，像他們這些通用的搜索引擎，到現在阿里也開始做個性化，而他們做的效果都不是特別滿意。因為到目前為止沒有看到特別好的個性化搜索的產品，我們淘寶做這個個性化搜索，其實有一些自己的優勢。因為我們有更加忠實的用戶，有更豐富的數據，所以我們應該可以達到更好的個性化的效果。我們也是最近這么一兩年來才開始做個性化的搜索。

記者：那就是說阿里在投入個性化搜索也就是最近一兩年的事。到現在為止取得了怎么樣的成績？你們是怎么判斷自己的成績？怎么去衡量自己的成果？有沒有覺得不滿意？

公達：我們自己肯定是在個性化有自己的一些理解，比如說我們希望個性化搜索能達到什么樣的效果，我們實現的時候，我們肯定會先按照我們希望的效果來做，等做出來了一個初步的效果之后，我們會讓用戶來通過實際的一些用戶來給我們評價，到底我們的效果是不是他們滿意的，我們是通過這樣來評價的。

記者：在個性化搜索系統中，它的難點在于什么地方？它是技術難點還是產品難點？

公達：它應該是兩方面難點都有的，比如說技術上面的話，最困難的是說我們怎么樣能夠把用戶的個性化、個性信息描述準確。比如他的性別，或者是他喜歡的衣服的風格等等，我們怎么樣能夠給他預測準。第二個是預測準了之后，他到底是不是喜歡？這個其實也是因為不同的人，他對自己一些購物的特點都是不太一樣，有的人雖然以前喜歡某個東西，但是突然他的信息又變化了。這種興趣的不確定性，這是最困難的一個地方。

從產品上面來講，其實也就是這個用戶到底能不能夠更加適用個性化需求的結果，他會不會覺得我們預測錯了，或者怎么樣的話，可能以后就不太會再用了。我們希望能夠盡量預測準，那樣他才會一直用下去。

記者：個性化搜索技術，在一個典型的個性化搜索團隊里面，大家都是什么樣的人員構成，都有哪些職責分工？

公達：首先我們有很多人是在做那些基礎的數據，比如說可能會計算用戶的各種偏好，這是屬于很基礎的數據。我們目前會有一個很大的團隊來做這件事情。包括用戶的各種數據，像他的年齡、性別，包括他的職業，一些購物的興趣點之類的事情，我們都有一個比較大的團隊來計算。第二個，我們會有系統方面的一些工作，比如說我們要搭建一個個性化的搜索的系統，我們有實時的個性化系統，我們搜索引擎也會支持更多個性化。第三部分，算法方面需要利用用戶的一些個性化信息，然后給他推出一個合適的搜索結果。其實就是數字與系統和算法這三部分，是我們個性化主要的部分。

記者：剛才你談到會有很大一個團隊專門在做數據的搜集整理，對于個性化推薦來講會不會有很多用戶覺得侵犯到他們的隱私，你們是怎么看待這個問題？

公達：目前的話，我們倒是沒有收到明顯的用戶投訴說我們收集到了他的隱私，其實不太正常的。因為用戶的行為在淘寶上有紀錄應該是一個很正常的，大家都可以認可的事情。比如說你買了什么樣的東西，這個肯定是需要有紀錄的，而且自己也能查看的，當然淘寶肯定是有數據。如果說用戶實在是不想我們收集的話，我們以后也會提供這樣的一個功能，我們可以不對他做個性化或者怎么樣，都是可以。

記者：在現在的互聯網企業，在什么時候才能需要到一個個性化搜索？

公達：那肯定是它的一個通用的搜索，如果說已經做的比較成熟了。對用戶的數據也搜集的足夠多了，如果說他有一個比較穩定的客戶群，這個時候他可以考慮給他一些穩定的客戶，給他們一些定制的個性化的結果。

記者：在實時計算和離線計算對于個性化搜索哪個占的優勢比較多一些？你們應用比較多的是哪一個？

公達：這個應該兩方面都是占的比較多的，因為離線計算的話，它是對于那種長期的偏好是比較重要的，實時計算的話對于當前用戶的時時的偏好是非常重要的。這方面目前在規劃里面都是很重要的兩個方面。

記者：個性化搜索有一個行為叫做時效性，我聽你在演講過程當中也有講過這個問題，你們是怎么去處理這個問題？

公達：我們首先是用戶默認的，或者一個長期的偏好的模式，比如說三個月或者六個月的興趣來算的，他實時計算當天的行為就是會放到時時的數據里面。這個實時的數據，當它達到了一定的精確度之后，就會來修改他長期的偏好，所以它應該是一個互相結合的過程。

記者：你們怎么去排除一些過期的行為？比如說比較久的？這些可能在用戶當中已經并不存在了，或者他們那些行為在過程當中也會改變的等等？

公達：比較久了，那就是從長期模型里面找。長期模型里面我們肯定會考慮所謂的時間，越近的行為肯定是越重要的，越遠的行為越不重要。所以既然發生的時間很久了，那么它的重要性就降低了，這樣也會被新的行為所取代了。

記者：你們一般做這塊的話，都是以最新的一些行為作為標準，他以前的一般就不會考慮。

公達：如果他最近的行為已經足夠豐富了，那么他以前的行為肯定不重要了。但如果他最近沒有什么行為，那他很久以前的行為也是有一定的好處的。

#p#

記者：在個性化搜索當中，個性化定制的功能在一淘中用戶體現的是怎么樣的？有沒有好的反饋？

公達：個性化定制，目前用戶還是比較多的，因為已經上線了一段時間了，當然用的人還是比較多的。這些用的人他會通過這個性化定制可以修改他們個性化的信息。

記者：個性化搜索，它有數據挖掘技術在里面，而對于數據的來源要求還是挺高的。在這一塊，對于數據的碎片化，你怎么去解決這個問題？

公達：碎片化其實就是說這個數據很稀疏，我們是盡量豐富數據的，比如說我們可以用三個月或者六個月，或者一年的數據，用的數據越多，肯定它的吸收性能也就越好了。我們會用一類人的一些數據，比如說對于用戶來說，我們是給他分一些群體，而不是說每個用戶都是不一樣，然后再保密。我們會給他一些比較寬泛的定義，比如說像價格檔位，我們也可以分五檔，并不是說分十檔，或者二十檔，那可能太稀釋了。

記者：很多時候大家討論個性化搜索對于一個網站的SEO其實是有一些影響的，你怎么看待這個問題？就目前大部分的網站做SEO主要是排名的競爭，很少會用到個性化搜索，你怎么看這個問題？

公達：個性化搜索的話，其實是要求他，每一個賣家能夠給它提出了更高的要求。就是說它需要服務好每一類人，如果說以前的話他服務好大眾的人就行了。但是現在如果他想拿到更多的流量，他就需要對每一類人都服務的好，這樣他在每一類人的排序上面，可能都會比較前面。所以對于個性格搜索來說，需要考慮的更多了一點。

記者：在淘寶上，我看到很多賣家，在關鍵詞上面，他做了很多SEO優化，這上面什么關鍵詞都有。對于個性化搜索來說，它有沒有能夠精準的定位，賣家有沒有什么影響？我是說在搜很多東西的時候，賣家的關鍵詞幾乎什么都覆蓋掉了，對個性化搜索有什么影響？

公達：如果說體現的關鍵詞太多，如果說太多的話，而且是一個不正當的，甚至和寶貝并不符合的關鍵詞，那可能本身被排起來，他是不利的。因為我們對這種亂填的關鍵詞會有一定的處罰，如果都是正常地描述一個寶貝的關鍵詞，那肯定是不會有太大影響。即使是個性化也是都會考慮的。

記者：你目前在做這一塊的話，能講一些目前的難點嗎？就是比較困難的地方。

公達：困難的地方，我們怎么樣能夠把用戶的興趣描述的更準了。比如說他的購買力、他的性別等等，就是說越準確的話，用戶的體驗就會越好。如果給他預測錯的話，他的體驗就不是很好。甚至是或者會修改，或者會關閉個性化。如果說越準確的話，他肯定是越喜歡用。所以我們會讓用戶的體驗更加地好。

記者：在目前的移動互聯網發展這么快，在移動端，用戶對搜索的需求還是挺高的。一般他想定位一個產品，搜索一個產品的話，他兩到三步就能夠精準地定位到這個內容。一淘的移動端在這方面做的如何？

公達：移動端的話，目前肯定會考慮。比如說手機的類型是iPhone還是Android之類的，或者也會考慮其他的地方。這些信息的話，肯定是一個個性化的重要信息。但是在移動上面具體有什么樣的特點？這肯定也是通過模型計算出來的。因為移動上面我們也會有移動方面個性化的模型，上面可能會體現出移動上面不同的特點來。

記者：在個性化搜索，目前你認為它對一個傳統搜索，是不是一個發展的趨勢？未來能不能代替傳統搜索？

公達：至少從電子商務這個方面來說，我覺得個性化還是很重要，未來肯定是會越做越多的。因為我們最終的理想肯定是讓每一個用戶都能達到最好的體驗，肯定是對每個用戶的個性，如果說都能夠滿足的好，肯定他的體驗是最好的。

責任編輯：林師授來源： 51CTO.com

個性化搜索個性化時效性數據碎片化

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一淘公達：解決個性化搜索中的時效性與數據碎片化