美國癌癥協會擁抱大數據技術
譯文美國癌癥協會很快發現,其IT機構也需要在此次調整過程中進行升級。新的中央式Siebel數據庫當中包含有4000個對象與150套表格,但負責承載的惠普UX硬件已經擁有長達八年的運行歷史。整理一份報告平均需要耗費四個小時,這意味著用戶需要在報告處理的同時、利用另一臺計算機處理其它事務以避免時間浪費。
2013年3月,美國癌癥協會聘請Blake Sanders加入進來,而他確實不負眾望、帶來了他在商業分析與數據倉庫領域積累二十年所獲得的寶貴經驗。作為癌癥協會全新職稱“架構與數據管理副總裁”的首位人選,他的工作是幫助該協會為即將到來的大數據未來做好準備。他決定從數據倉庫設備起步,首先解決速度與數據延遲問題,并以此為基礎以見招拆招的方式逐步應對數據復雜性難題。
“我們經歷了相當標準的招標流程,”Sanders回憶道。“我們以剛性為中心作出了一系列規劃。相關各方都收到了我們發出的模板,其中包含有關于當前狀況與待解決問題的描述,要求他們根據實際情況進行填寫。”Sanders和他的團隊在收集到充足的信息之后,再將這份標書發送給四家供應商:甲骨文/Exadata、微軟、IBM/Netezza以及Teradata。
提交的問題包括“貴方的平臺是否允許用戶集成這些特定ETL(即提取、轉換與加載)工具?”等。這些問題與其它系統、數據建模軟件、維護能力與維護機制、人員要求以及同ETL之外其它工具集的集成息息相關。經過幾個月的調查,Sanders與他的團隊充分評估并比對了各廠商給出方案。最終,他們將概念驗證供應商人選壓縮為兩家:Teradata與Netezza。
“我們很清楚,我們無法同時應對四套概念驗證項目,”Sanders表示。“事實上沒有哪家廠商能夠完全解決我們的全部問題,而這正是我們需要驗證的重點:最終解決方案必須要給我們的運營狀態帶來顯著提升。”其中包括硬件、軟件、安裝以及服務,整個項目的預算接近100萬美元。
“整理一份報告平均需要耗費四個小時,這意味著用戶需要在報告處理的同時、利用另一臺計算機處理其它事務以避免時間浪費。”
Sanders曾于2006年在他的上一份工作中安裝過Netezza(如今已經被正式更名為IBM Pure Data System for Analytics),當時的實際結果令他非常滿意。不過出于謹慎的工作態度,他仍然全心全意監督著Netezza系統在美國癌癥協會當中的實際表現。
#p#
意義重大的概念驗證工作
雖然美國癌癥協會的各位捐助者們理解技術方案在研究支持領域的重要意義,但在他們的固有印象當中癌癥協會中的技術主體應該由醫生及生物實驗室來充當、而非計算機設備,Sanders表示。“人們往往認為用于此類技術升級的捐贈款項其實無甚價值。”
要成為一位出色的管理者,他需要證明計算機能夠帶來比前期投入更為可觀的實際回報,因此全程追蹤整體持有成本以及投資回報率就變得至關重要。此外,他還希望幫助科研人員擺脫苦等數據結果的舊日噩夢,轉而幫助他們隨時輕松運用自己需要的數據。
Sanders提出了他的概念驗證流程以及目標:
1. 明確支持業務需求
2. 建立并追蹤成功指標
3. 充分發掘產品特性
4. 區分宣傳效果(營銷宣傳)與實際水平
5. 檢查“特殊用例”
6. 嘗試證明投資回報水平
考慮到未來將很難重新回歸現有方案并額外添加技術元素,Sanders需要在快速解決現有問題的同時、為未來三到五年的預期需求構建好實現基礎。
對于生產效率提升這樣的模糊概念來說,我們往往很難給出一個具體的量化數字,但Sanders一直在實際層面給出結論,例如整個機構每周能夠借此節約多少小時的工作時長。效率的提升可能允許管理層削減員工數量,或者在無需增加人手的前提下建立新的研究項目。這些細節都將被匯總為一套圖表,用于標示累積性成本節約以及特殊用例。
競爭仍在繼續
Netezza與Teradata兩家公司于同一周在美國癌癥協會的數據中心分別建立起自己的系統。Sanders不希望任何數據被傳輸至內部環境之外,因此他無法借力于云服務以及遠程測試。除此之外,全部調整工作都由他的團隊親手完成——而非供應商方負責。
美國癌癥協會目前管理的數據來自7600萬個源頭(其中包括捐助者、志愿者以及工作人員等等),且每年由超過6000次慈善活動處收集得出。根據Sanders的說法,其整體數據集規模“卻出乎意料地小,當前數據僅為2.5TB。”
Sanders從全部150套表中提取了約20套(包含4000個對象)以構建測試數據集,并把這套數據集同時交付給兩家供應商。與此同時,數據的籌備過程也相當于對未來全部數據遷移至新系統進行的一次預演。
相較于將現有內部IT團隊分別拆分為Netezza組與Teradata組,Sanders更傾向于引導全部團隊成員同時使用這兩套系統,這樣每個人都能夠在后期評估過程中切身體會到二者之間的差別。兩套系統在評估流程中的每個執行步驟都完全一致,這樣Sanders才能保證以公平公正的方式比較出雙方的優劣。
整個概念驗證流程持續了大約六周。這兩套系統分別需要載入數據、提供功能及管理細節信息,并執行查詢優化。雙方都運行有總計5套小型、中型以及大型查詢任務,同時監控哪些表正處于使用狀態。Sanders給此次評估項目想出了一條頗具“快餐”風格的口號:“更快、更新、更好。”
Sanders和他的癌癥協會技術團隊構建了一套腳本來完成日常工作,其中包括設置數據庫、導入數據集、評估管理工具可用性以及測試響應時間等等。在測試的同時,腳本還會就索引及匯聚任務對系統作出調整。除了現有任務之外,他們還多花了一個禮拜來測試一部分雖然目前尚不存在、但未來也許必要的使用情況。
生產效率的提升可謂立竿見影。查詢時間由過去陳舊系統上的平均四個小時縮短到了新系統上的約四十秒。沒錯,速度較原先提升了370倍。相較于原本每周只能運行1000份報告,如今他們能夠在同樣的周期當中運行4990份報告。從員工工作時間節約的角度看,單此一項每周就幫助癌癥協會節省下11萬9700美元。
而且用戶們赫然發現,自己能夠以前所未有的方式輕松處理報告內容——正如他們處理普通電子表格那樣。種種未曾出現過的輕松方式讓用戶隨意查看數據內容。Sanders指出,這種速度方面的提升甚至帶來了行為模式的轉變,用戶現在能夠在幾秒之內從多種角度出發針對數據發起查詢。
除此之外,用戶還要求新系統能夠消除一部分原有硬性使用成本。當報告處理需要耗時數小時時,用戶需要另一套系統來處理其它任務,從而避免發生無所事事的狀況。有些用戶甚至需要在自己的辦公桌上部署三套系統。其它硬性成本縮減與新系統投資回報保障方式還包括降低陳舊惠普UX設備所帶來的甲骨文產品許可及維護費用。經過幾年的累積成本節約,新系統的購買價格將被全部抵消,而且在此之后節約效果仍將繼續維持。
Sanders認為,Netezza在這方面的表現更為出色。而且事實證明,Netezza曾于2006年擁有的成本節約表現至今也依然值得信賴。
#p#
功能比較
概念驗證的第二階段旨在面向未來需求籌劃實現基礎。他基本上是以目前的數據倉庫執行任務對設備進行測試,但他希望在未來的三到五年當中構建起真正的大數據系統。美國癌癥協會需要迎接Hadoop并監控實時數據動向,例如面向志愿者以及生命接力慈善活動參與者對網站進行個性化設計。
Netezza擁有新型硬件,且較之Sanders于2006年所使用的機型在速度方面更為出色,但其軟件仍然與多年前保持著同樣的水平。相比之下,Teredata的14.10操作系統則表現出遠超過原有版本的顯著提升。“看起來他們在軟件創新方面的態度要比Netezza積極得多,”Sanders評價道。“Netezza已經占據了領先地位,但在軟件創新角度看我可能更傾向于選擇Teradata。”
整個項目的最終價格被確定為75萬美元左右。Sanders研究得出的“節點計算能力”規模方案對不同硬件要求作出了均衡,Netezza與Teradata兩家廠商的價格甚至保持一致。
就目前來看,一切順利
整個招標/投標過程持續了大約六個月,而Teradata硬件于2013年10月中旬正式安裝到位。到同年12月,美國癌癥協會在生產流程中開始每周對其Siebel報告系統進行更新。到次年1月,這一更新周期被進一步縮短為每天。
根據Sanders的介紹,自那時開始,美國癌癥協會新增了財務、規劃與會計部門,并針對營銷團隊提供數據資源以實現基礎性活動分析。
“一年之后,我們仍然將查詢性能保持在原有數據架構的350到370倍水平,并進一步簡化整套數據模型以確保其更適合實現臨時性查詢操作。維護工作也不再是難以打理的問題。在這一年當中,我們從未遭遇過任何系統宕機狀況,而全部維護任務也都能夠輕松完成。我們下一步要做的是變更Siebel應用程序數據的捕捉方式,從而以近實時方式將其加載至Teradata系統當中,從而深入改善數據處理流程,最終縮減我們的批量隔離負載窗口。我們將有能力從應用程序當中直接載入數據,并在數據內容發生變化時生成報告,而這將以前所未有的方式為業務帶來出色的主動監控能力,”Sanders指出。
原文鏈接:
http://www.networkworld.com/article/2895379/big-data-business-intelligence/american-cancer-society-embraces-big-data.html
原文標題:American Cancer Society embraces Big Data