大數據探討：如何整理1700億條Twitter發布信息？

作者：核子可樂譯 2013-01-10 12:54:29

截至目前，美國國會圖書館所保存的Twitter信息數量已達到1700億條、存儲文件體積更到達133TB--由于每一條信息都已經在這套社交網絡中分享及轉載，這么龐大的數據改如何整理？

　　【51CTO外電頭條】隨著社交網絡蒸蒸日上，美國國會圖書館不得不面對達到133TB之巨的Twitter發布信息文件；好在經過實踐，他們已經找到了管理此類數據的辦法。

　　截至目前，美國國會圖書館所保存的Twitter信息數量已達到1700億條、存儲文件體積更到達133TB--由于每一條信息都已經在這套社交網絡中分享及轉載，圖書館的技術團隊需要想辦法為用戶拿出切實可行的檢索方案。

　　在現階段的項目報告中，圖書館管理人員指出目前市場上提供的此類大數據管理工具無法解決他們的實際困難。"很顯然，現有技術還只能滿足獎學金信息等規模化數據集的訪問需求，而在創建及發布此類數據方面則表現乏力，"館方表示。"由于此類任務的復雜性及對資源的極高要求，私營部門尚無法拿出具備合理性價比的商業方案。"

　　如果私營企業都難以搞定大數據管理工作，那么預算拮據、全靠政府資金支持的非營利性機構--包括全球***的圖書館在內--又該如何解決這一難題？要拿出一套實用、經濟、便捷且有能力處理1700億條Twitter信息的索引系統無異于癡人說夢。

　　Twitter曾簽署一份協議，允許美國國會圖書館訪問該社交媒體網站中所發布的全部更新信息。館方官員坦言，他們必須建立一套幫助研究人員訪問社交平臺數據的系統，因為隨著網絡化交流趨勢的不斷普及，以期刊及出版物為代表的傳統溝通方式已經被逐漸取代。

[[60188]]

　　國會圖書館杰弗遜大廈

　　在Twitter剛剛誕生的2006年到2010年間，首批數據轉儲文件為20TB，其中囊括了210億條Twitter信息（包括用戶當前位置及消息描述等元數據）。最近，館方剛剛迎來第二批轉儲數據--總體而言，這部分副本壓縮文件總體積為133.2TB。在此之后，圖書館將與Gnip公司展開合作，以小時為單位收集全部Twitter發布信息。2011年2月公布的統計數字顯示，當時每天經由Twitter發布的信息約為1.4億條；而到去年10月，這一數字已經增長到約5億條。

　　研究人員強烈要求國會圖書館盡快開放數據訪問功能--館方稱已經接到超過四百次此類請求。該項目由圖書館與Twitter雙方并行實施，將為用戶提供Twitter使用的歷史記錄，能夠逐項列出他們通過賬戶發布過的每條信息。

　　美國國會圖書館在大數據管理方面算得上經驗豐富：根據工作人員的說法，館方自2000年開始就一直在為政府網站進行數據歸檔整理工作，數據總量超過300TB。然而Twitter的出現令歸檔工作陷入僵局，因為館方實在找不到合適的辦法保證信息易于搜索。如果繼續使用館方長期以來一直所倚仗的磁帶存儲方案，那么僅查詢一條2006到2010之間的Twitter信息就需要耗費最多24個小時--而這批轉儲數據還僅占數據總量的八分之一。"Twitter信息之所以難于整理，一方面是由于數據量過于龐大，另一方面則是因為每天都會有新數據不斷加入進來，而這種增長速度仍在不斷提升，"官方指出。"此外，Twitter信息的種類也越來越多樣。普通Twiiter信息、利用軟件客戶端發出的自動回復信息、手動回復信息、包含鏈接或者圖片的信息等等，這一切讓我們無從下手。"

　　尋找解決方案的道路是曲折的。國會圖書館已經開始考慮分布式及并行計算方案，但這兩類系統實在太過昂貴。"要想真正實現搜索時間的顯著降低，我們需要構建起由數百乃至數千臺服務器組成的龐大基礎設施。這對于我們這種毫無商業收益的機構來說成本過高、根本不切實際。"

　　那么館方到底該如何應對？大數據專家們給出了一系列參考方案。就國會圖書館的情況而言，技術團隊也許***進行分類處理的方式，即利用一款工具處理數據存儲、一款工具負責檢索工作、另一款則用于回應查詢請求，Mark Phillips指出。他既在Basho擔任社區及開發推廣主管，同時也是開源數據庫工具Raik的創始人（該工具在鍵-值存儲方面便利而***可擴展性）。

　　大數據管理工具已經構建起欣欣向榮的新興行業，用戶可以根據不同的使用需求與預期成本選擇專有軟件或者開源方案。國會圖書館的技術人員所面臨的***問題在于，他們該如何開始整套系統的創建和管理工作。如果館方希望走開源的道路，那么可選的數據庫創建及管理工具可謂百花齊放--從Hadoop集群到專門針對高輸入/輸出讀寫操作的Greenplum數據庫可謂應有盡有。二者還能夠與Apache Solar--一款開源搜索工具--加以整合。開源為開發者們指明了一條免費獲取源代碼的光明道路，能夠在商業硬件上構建起理想中的系統成品，然而采用開源也意味著我們需要在后端開發工作中投入大量人力物力。當然，國會圖書館也完全可以走更昂貴但更省心的專有軟件道路，從甲骨文或者SAP這些業界巨頭那里直接采購數據庫產品。

　　不過無論采取哪種方式，Twitter項目中那碩大無朋的數據總量仍然難以攻克。不過Phillips的態度給了我們一定信心。他指出，雖然Twitter目前的數據量已經達到133TB且仍處于快速增長之中，但Basho公司已經接觸過數據量達到PB級別的客戶，并且在自己的平臺上順利完成了任務。只要國會圖書館能夠追蹤并總結出數據庫容量每個月或每個季度的增長幅度，并根據結果為數據存儲配備充足的硬件資源，那么Basho的數據庫軟件將有能力解決館方的難題。

　　那么使用云方案可不可行呢？從理論上講，國會圖書館可以采用以Amazon Web Services為代表的公共云資源保存這些數據，而且隨著Twitter信息總量的不斷增長，AWS會自動處理必要的硬件擴容工作。然而在Basho公司工程師Seth Thomas看來，這種方案的長期性價比值得商榷。由于館方顯然打算***保存這些數據，所以混合式架構可能更具經濟效益。也許更好的辦法是將數據保存在本地，然后利用云服務實現分析功能。如此一來，館方只需根據搜索量為響應請求所投入的動態資源支付費用即可，而終端系統也只需處理與請求量相對應的工作負載。

　　無論如何，國會圖書館已經下決心將這些Twitter信息納入檢索體系。而身為普通用戶，我們要注意的則是--只要更新Twitter，信息就會被記錄下來。

　　原文鏈接：http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn

　　原文標題：Talk about big data: How the Library of Congress can index all 170 billion tweets ever posted

責任編輯：黃丹來源： 51CTO.com

大數據探討 Twitter

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據探討：如何整理1700億條Twitter發布信息？