道客巴巴CTO劉斌:10億文檔的數據挖掘與應用
原創2016年8月26-27日,由51CTO.com主辦的【WOT2016移動互聯網技術峰會】在北京粵財JW萬豪酒店隆重召開。自2012年以來,WOT品牌大會秉承專注技術、服務技術人員的理念已經成功舉辦十一屆,不僅積累了大量的專家資源,更獲得廣大IT從業者和技術愛好者的認可和好評,并成為業界重要的技術分享及人脈拓展平臺。
會議現場,道客巴巴CTO劉斌接受了記者采訪,結合道客巴巴文檔分享平臺實際發展情況及現有技術架構,深入解析了道客巴巴對億級文檔的概念理解以及對億級文檔的數據挖掘與應用。
道客巴巴CTO劉斌
道客巴巴:億級文檔分享平臺
作為在線文檔分享平臺,道客巴巴致力于為數億互聯網用戶打造自由交流與平等學習的開放式互動平臺,讓更多用戶在分享知識中提升自我。經過多年發展,用戶分享至道客巴巴的文檔數量已經超過了10億,文檔內容涵蓋了考試資料、教學課件、學術論文、應用文書、企業文案、行業研究資料等幾十個領域。
記者了解到,在文檔分享領域,道客巴巴注重文檔以質為本,服務以人為本,技術以新為本。作為國內首家提供免費全文閱讀的文檔分享平臺,道客巴巴實現了從連接人與信息向連接人與服務轉換的飛躍。道客巴巴現有的文檔分享平臺、任務互助平臺、企業文庫等產品既能給用戶提供價值,同時用戶也能給產品提供價值,進而用戶與用戶之間實現價值的交換與滿足。
安全存儲:10億文檔的首要挑戰
目前,道客巴巴的文檔數量已經達到10億,如此海量的文檔內容,給數據存儲技術帶來了哪些挑戰?
劉斌表示,網站建設初期,道客巴巴采用原始的存儲方式,雖然采用了Raid5架構,避免了單個硬盤故障導致的數據丟失,但如果計算機其他硬件出現故障,可能導致該計算機上的數據短時間內無法正常服務。為了改善這一情況,道客巴巴結合開源軟件Hadoop的分布式架構,并對小的文檔文件進行自定義索引合并,生成適合Hadoop存儲的大文件,避免了Hadoop小文件過多導致的性能問題。同時,道客巴巴通過多副本的形式進行存儲,以保證單臺計算機出現故障時,其他計算機可以將故障的數據備份,從而保證數據的安全存儲。
文檔去重:十億文檔的冗余問題
目前,道客巴巴用戶數已達7000萬,每天上傳大量文檔,其中難免會有重復文檔,如何避免相同或相似的文檔被重復上傳并發布?對此,道客巴巴特別建立了文檔驗重去重技術體系:積累了百億級的驗重基礎數據元,采用了分布式的并行計算方式,高效的檢測出文檔是否重復并得到文檔內容的重復率,對于相同或相似的文檔進行了有效過濾,保證了文檔內容的***性和優質性。
數據挖掘:全文檢索及智能分類
在應對存儲和去重挑戰的同時,為了給用戶提供更高質量的服務,道客巴巴對數億優質文檔進行了更深入的數據挖掘,讓用戶在數億文檔中快速、精確的檢索到自己需要的內容,同時,網站可以根據用戶的閱讀行為,主動為用戶推薦更加符合用戶需求的文檔。
道客巴巴采用了全文檢索技術,對數億文檔內容進行了分詞索引,采用了數十臺高性能服務器進行分布式并行全文檢索,將檢索結果匯總到主服務器并進行文檔排序,將優質文檔毫秒級展示給用戶。
由于道客巴巴用戶的分散性,導致上傳的部分文檔未能精確匹配已有分類。為了提高文檔分類的準確性,道客巴巴特別采用了智能分類技術解決方案。經過多年的積累,每個分類下匯集了大量精確文檔作為計算機學習樣本,通過智能分類算法,對未知文檔進行有效分類。
挑戰與機遇:文檔服務的未來
目前,大部分文檔閱讀平臺基本都采用Flash閱讀方案,隨著HTML5技術的發展,Flash逐漸被替代,文檔的在線閱讀方案也將面臨技術改革,陸續過渡到HTML5的閱讀方式,但由于HTML5在文檔的內容保護方面尚存欠缺,如何保證文檔內容的安全性,成為此次技術改革的難點。針對此次難點,道客巴巴研發團隊綜合了國內外多方面經驗,為下一步技術過渡打好基礎。另外,在搜索和驗重方面,業內所采用的方法很難實現語義上的識別,道客巴巴已經突破了同義詞的重復識別,但是在語義分析上同樣面臨著巨大挑戰,解決這一技術難題,是道客巴巴提升文檔服務的努力方向與重要目標。
以上是51CTO.com記者從【WOT2016移動互聯網技術峰會】一線為您帶來的精彩報道。更多精彩內容報道,敬請持續關注!