WOT2016田超:大數據能為資訊平臺帶來什么?
原創【51CTO.com原創稿件】WOT2016大數據峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數十位大數據領域一線專家、數據技術先行者將齊聚現場,在圍繞機器學習、實時計算、系統架構、NoSQL技術實踐等前沿技術話題展開深度交流和溝通探討的同時,分享大數據領域最新實踐和最熱門的行業應用。
51CTO記者對即將參加大會演講的一點資訊大數據平臺研發總監 田超行了專訪,讓我們先睹為快,探聽田超在一點資訊大規模實時點擊反饋平臺方面的心得。
田超,目前在一點資訊任職大數據中心技術總監負責基礎架構及大數據平臺相關工作。碩士畢業于中國科學院計算技術研究所,曾任職雅虎北京研發中心工程師、同步盤CTO、高德軟件高級技術經理等職。現任一點資訊大數據平臺技術總監。
大數據技術是對于海量數據的處理能力及構建在這樣處理能力之上的數據應用。從Hadoop大規模普及開始,業界擁有了構建大規模數據存儲和計算的能力,而隨著技術的不斷發展,上層應用對于擁有實時處理海量數據能力的需求在不斷增強,這就衍生出了如Storm在內的各種實時計算的框架和系統。而今天做的一些技術包括Spark、Google dataflow等則希望能夠更有機的將離線計算與在線計算進行統一。
實時的數據處理能力對于一個現代互聯網公司來說是必要的組成部分。各個公司的在線機器學習、實時用戶畫像系統、實時數據倉庫、實時統計分析系統等業務都需要擁有實時的大規模反饋數據計算的能力,這些系統的實時計算部分有一定的共同點,也有一定的特殊部分。一點資訊的實時反饋平臺在設計之初對上述系統對實時計算部分的公用計算模型和數據結構進行了抽象,對系統設計的時候參考了Google的Mesa系統,從而設計成為一個可擴展的平臺,能夠在一點咨詢內部支撐著上述系統的實時計算部分任務。
許多的資訊平臺智能為讀者服務,但是一點資訊可以反向,為讀者服務的同時也可以為作者提供資訊。系統在根據用戶的行為來分析,以及挖掘用戶對興趣的需求和需求被滿足的情況。這些數據及對數據的深度挖掘為一點資訊的內容生態建設,提供了一個全局的上帝視角,使一點資訊可以從更高的角度來觀察群體上的表現及內容趨勢。一點資訊還有一個叫一點insight的系統,目前屬于邀約測試中,該系統會把對于用戶興趣的知識映射到不同的領域上,以各種數據可視化的方式來展示這些知識。
搜索引擎強調的是用戶搜索,相當于用戶帶領內容;推薦是用戶完全處于被動,也不做表達,先給予用戶共性的內容,再根據其點擊行為,猜測用戶的喜好,然后再將內容推薦給用戶。搜索引擎和推薦引擎是有著相似結構的不同系統。把搜索技術和推薦技術有機的融合在一起,是一點資訊興趣引擎設計的核心目標。興趣引擎中,對于用戶的搜索和推薦行為數據底層完全打通,充分的利用用戶主動表達與被動行為信號,基于人工智能技術不斷學習和挖掘用戶的興趣,并基于用戶興趣進行內容的分發。
對于大數據到人工智能之間技術的不斷發展,在田超看來實際上是業界對數據的處理,以及利用能力不斷發展提升的自然過程。最早的時候,業界大多數技術都是用來處理結果數據的,數據量在GB級別,存儲使用Database,對于數據獲取和存儲計算的能力處于初級階段;隨著Hadoop等一系列基礎架構的不斷發展,大數據技術也不斷發展起來,技術人員不僅僅是處理業務結果數據,對描述用戶行為的日志也進行了更深度的處理,輔助業務進行計算,這個時代數據量已經增長到了PB級別,存儲使用各種分布式文件系統,這一階段各種離線計算、流式計算、圖計算模型也都隨著大數據應用的發展而發展起來;而今天,在已經擁有了更好的計算模型以及更加海量的數據之后,對于數據的利用也更加深化,人工智能及深度學習技術與大數據的結合也可以構造更加智能的應用。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】