IT龍門陣172期報道:數據挖掘技術面臨新挑戰
張韶峰:搜集了1.4億用戶偏好數據
百分點科技COO張韶峰認為互聯網將IT技術擴展到全人類,大數據使得以IBM、Oracle為代表的IT技術企業和以Facebook為代表的web2.0互聯網應用發生聯系。
他表示,互聯網的興起,使得利用用戶在外網上的行為來推薦電子商務企業網上的商品成為可能。百分點就是通過“場景引擎”來計算用戶的心理,“規則引擎”融合專家的建議,配以算法來給用戶推薦個性化的商品。
張韶峰介紹,目前百分點云平臺匯集了250多家公司,約1.4億用戶的偏好數據。百分點通過與客戶分享用戶行為數據,打通顧客在多個網站的行為數據,形成顧客商業行為數據平臺,這樣在為用戶服務時,會利用這些積累的用戶全網行為偏好和規律為用戶推薦合適的商品。
談到用戶識別,張韶峰表示目前百分點的技術主要是通過cookie 和合作客戶的用戶ID來識別用戶。而基于用戶行為的全網推薦必須解決不同網站對同一商品的不同分類描述,百分點通過建立自己的商品分類商品類目數,通過機器學習和人工校正來對商品進行匹配。
張文浩:社交網絡數據是金礦
獨到科技創始人張文浩認為社交網絡產生了海量用戶、實時和完整的數據,同時社交網絡也記錄的群體的情緒,通過深入挖掘這些數據來了解群體的智慧。
他介紹了利用社交網絡數據來監測天氣變化,這一看似無關的兩個概念。通過各個地區的“喊熱”人數來進行監測,具體流程是通過界定關鍵詞種子,如“熱”、“口渴”等,在新浪微博里通過爬蟲找到包含種子詞的文本集合,然后結合語凈抽取規則、語法規則得到相關數據。通過文本數據轉換到天氣相關的數據。
同時,張文浩指出,數據預測往往是事后諸葛,目前大部分數據挖掘是基于歷史數據做出預測,而不是對未來的預測,他認為社交網絡挖掘中機器對語言語境理解的不足,自然語言處理技術,情感分析算法的給挖掘帶來挑戰,此外社交網絡存在的大量的水軍和僵尸識別以及抽樣的準確性都對挖掘的準確性產生了影響。
而對于微博的數據挖掘來說,也存在文本短,特征緯度低,文本口語化,符號多,水軍多等挑戰。“社交網絡數據是一座金礦,但是挖掘過程充滿挑戰。” 張文浩說。
張夏天:流程管理平臺是數據挖掘的挑戰之一
騰云天下數據挖掘總監張夏天認為大數據不是新問題,50年代數據挖掘就已存在。隨著計算機和互聯網的出現,帶來了超大數據量、超高緯度的數據,數據挖掘碰到單臺計算機無法解決的超大數據量。
張夏天指出大數據對算法和計算平臺的挑戰增大,維數災難更加嚴重,計算開銷大增。
他認為數據挖掘是一個很長的流程,是實驗性探索性的工作,需要不斷調整算法和參數,這就需要一個好的數據挖掘流程管理平臺來支持數據挖掘工作。
對于怎么去駕馭大數據挖掘,張夏天認為,從數據層面來看,可以減少數據量,化大數據為小數據,找到和挖掘出合適的數據,通過抽樣的方式把數據分而治之也是解決大數據的一個不錯的方式。
此外他分享數據挖掘經驗認為Hadoop不是做多次迭代的好選擇。用64GB單機單線程跑機器學習,比有200多個節點的Hadoop集群耗費時間更少。
屈偉:數據挖掘應用廣泛
紅麥軟件技術有限公司創始人屈偉認為數據挖掘存在廣泛應用,他分享了幾種簡單的數據挖掘手段。
首先是自動標簽技術,即通過TF-IDF算法給文章設置關鍵詞,區分關鍵詞的重要程度。TF-IDF算法發現越是重要的詞出現的頻率越低,TF-IDF算法給沒個詞賦予不同的權重,來區分關鍵詞。
自動分類技術方面,GMAIL對垃圾郵件的過濾就是基于自動分類的。具體的實現手段是對不同類型的文章進行分詞,通過比較同一個詞在不同類別文章中的出現次數,計算出現概率,利用貝葉斯理論來計算每一個詞對類別的貢獻概率,進而進行判別。而聚類分析,則可以通過計算距離的來實現對復雜特征的聚類。
在談到社會化推薦時,他認為這個看似很復雜的功能也可以通過簡單的方法來實現。比如用戶已經看過10本書,推薦第11本,那么可以找出同時看過10本書的人,假如找到了50人,然后在看找到這50人都讀過的書進行推薦。
在數據挖掘的應用上,他表示數據挖掘口碑分析,產品評價,競品分析,微博潛在用戶,市場效果評估,品牌影響等方面進行應用。(寧萌)