每天50TB 淘寶海量數據輕松漫游記
導語:隨著網絡的普遍化,淘寶成了人們生活中不可缺少的一部分,淘寶實現了足不出戶就可以買到所有需要的東西的狀態,在電子商務領域,淘寶可謂是一支奇葩。它創造了中國***的電子商務網站,形成了一個包括買家、買家、物流、金融、廣告、搜索在內的商業生態系統。據了解,淘寶目前每天的活躍數據量已經超過50TB,共有4億條產品訊息和2億多名注冊用戶在上面活動,每天超過4000萬人次訪問。如此巨大的數據訪問量,使得淘寶數據倉庫成為國內最忙碌的數據倉庫之一。每天大約要處理幾億次的用戶行為。那么,淘寶是如何建立和管理自己的數據倉庫,保證其高效、安全地運行和管理的呢?在北京oracle全球大會上,記者訪問了淘寶網技術開發部高級數據庫專家江楓,詳細了解了在oracle數據庫和Oracle RAC產品基礎上,淘寶是如何構建自己的數據倉庫奇跡的過程。
據江楓介紹,淘寶所有的商業數據基本上都是匯集到數據倉庫來集中,然后進行運算,最終會根據不同的BI模型,得出不同的結果。通過對各種訪問、交易、商鋪信息以及客服信息等的綜合處理,形成反映各種瀏覽、交易和用戶行為、行業銷售趨勢方面的統計數據,可以給整個公司的決策提供數據方面的支持。因此,淘寶的數據庫系統對整個公司來說,是至關重要的。同時,江楓也表示,淘寶的數據除了給公司內部用以外,也有提供給外部用戶的。比如說淘寶2010年做的數據魔方產品,就是給淘寶的賣家提供商品的銷售情況,行業的銷售的趨勢,給淘寶賣家帶來更大的數據營銷方面的數據方面的支持;另外還有一個比較大的數據產品是電子統計,即提供給淘寶賣家的一些電子統計,包括賣家的訪客來源,訪客喜歡什么時間段來,定了哪些商品等非常詳細的訂貨的統計,這些信息也有助于淘寶的產品商戶和賣家了解、分析用戶行為,設計增值服務。這不僅需要數據倉庫對海量數據進行更新、集中處理,也需要它能提供每天動態、實時的分析,無疑對于數據庫系統是個巨大的挑戰。
淘寶網利用Oracle產品構建淘寶數據庫的技術已經有4年的時間。并于2007年、2008年和2009年三次利用Oracle RAC 10g和Oracle RAC 11g對數據倉庫系統進行了升級和擴充,將數據倉庫部署在RAC系統之上。4年來,淘寶的業務每年是保持100%以上的增長速度,淘寶的數據庫也在不斷增長。2006年,淘寶的RAC系統還是4個節點,2008年,淘寶將之升級到12個節點,2009年的時候又把它升到20個節點,使淘寶在數據倉庫規模每年成倍擴大的情況下,實現了數據處理和分析時效性的不斷提升,應對不斷增長的數據處理需求。
同時,江楓強調,該數據庫系統的實時更新已經可以做到每小時,或者是每15分鐘,甚至可以做到秒級的水平——淘寶現在今年新開發的基于日期的復制已經可以做到秒級的實時更新數據到這個數據倉庫里面來。
對于淘寶來說,數據的安全性更加重要。江楓說,淘寶就是所有的數據庫肯定都是在集成網絡之后的,在外面任何地方都是沒有辦法訪問到淘寶上數據庫上的數據的。在監控上,淘寶有自己一整套監控系統在支持,包括我們防欺詐、防惡意的數據。在淘寶內部,專門設置了一個非常大的部門在做這個事情。
目前,Oracle 11g產品也在淘寶的數據倉庫系統內進行著測試,并將在不久的將來,在淘寶網的數據庫系統建設中,發揮更大的作用。淘寶也會經過一次次的改進發展,更好的為網民們服務,當然收益***的還是網民們,讓我們共同期待Oracle 11g產品在淘寶的數據倉庫系統通過測試,早日上市。
【編輯推薦】