超級計算機,解鎖大數據能量的利器
譯文在今天的文章中,我們將從六個角度來探討為什么企業、甚至是初創企業正著手運用超級計算資源,而IT組織又能夠怎樣通過這一強大助力滿足大數據與業務分析需求。
制造商、物流公司、制藥企業以及能源巨頭之間擁有著一大共同點:他們都在利用超級計算設備突破研發領域的限制,并借此回答那些難于甚至根本不可能通過實踐方式獲得答案的問題。
各類組織目前正利用云服務與PC設備處理著過去需要借助超級計算機之力方能解決的任務。時至今日,云計算的快速發展已經讓相當一部分高性能計算工作轉而以云環境作為實現平臺,而此類產品、服務以及解決方案的供應商們則進一步將目標指向了過去一直高度依賴于超級計算機的研究與科學領域。不過隨著云解決方案與超級計算機的不斷演進,這兩類機制的使用態勢并不一定會相互排斥。目前已經有一些企業開始同大學乃至***實驗室合作,旨在訪問強大的處理資源——其中一部分企業甚至擁有了自己的超級計算機。
我們發現目前有很多企業在這方面有所行動,開始在我們這里以并行方式處理高達上千萬億次的計算負載,”橡樹嶺國家實驗室計算與計算科學副主任Jeff Nichols在采訪當中指出。當下來自汽車行業、航空業、能源領域以及科學領域的諸多企業都希望與我們開展合作,從而解決其面臨的大規模科學問題。 橡樹嶺國家實驗室以及計算科學合作署——后者為橡樹嶺與田納西大學聯合建立的聯合研究機構——各自擁有一批***且具備領先水平的計算資源及多種架構選項,能夠支持他們解決各種各樣規模化計算任務。泰坦”是橡樹嶺實驗室目前最為龐大同時也是全球范圍內性能排名第二的超級計算機。這是一臺克雷XK7設備,擁有2.7億億次每秒運算能力,其采用29萬9008顆16核心AMD皓龍CPU、18688塊英偉達Tesla K20 GPU加速裝置外加710 TB整體系統內存。
除了擁有極為強大的硬件基礎,計算科學合作署還針對軟件包及專有軟件進行了優化,因此能夠更為高效地在超級計算機或者云環境下實現運行。再有,計算科學合作署還擁有二十位擁有物理、化學、計算科學以及其它領域博士學位,同時精通機器語言的技術人員。他們能夠幫助機構用戶了解哪些任務能夠以計算方式實現。而且正因為他們的科學家身份,其也有助于幫助各企業擁有享受到***的技術成果。
當大家開始使用計算機制時,首先需要明確問題本身并獲取更多計算資源。在這方面,不熟悉狀況的新人馬上就會碰壁,”計算科學合作署主任兼田納西大學理論與計算天體物理與天文學教授Tony Mezzacappa在接受采訪時強調稱。具備相關知識的用戶了解自己要如何將規模化計算任務分發到設備上的全部節點當中,但他們最終還是會遇到其它難題。舉例來說,為了能夠在合理的時間周期內完成任務處理,他們可能需要更多內存或者使用更多計算資源。 下面我們就一起來看企業甚至是初創公司采用超級計算資源的六大出發點,包括IT組織為什么有理由考慮利用超級計算設備滿足其大數據與業務分析需求。
#p#
數據集在內存中將如魚得水
如果一套數據集在體積方面太過龐大,又或者大家希望將多套大型數據集加以結合,那么這些數據往往將無法被塞進內存當中。解決這一難題的方式之一是將其拆分成多個小型片段,再對各個片段進行獨立分析。雖然對這些數據碎片進行分析的具體途徑多種多樣,但也有很多分析措施只能在全部相關數據皆駐留在內存中時方可實現——除此之外,這樣也能顯著縮短整個分析過程。再有,當全部數據皆處于內存中時,我們往往能夠提出更多類型的問題、擴展發現范圍并找到更深層次的關聯性。
如果我想獲得關于某個問題的正確答案,我會將全部所需數據引入進來,并加以全面查詢,這樣才能***程度提升結論的可靠性,”計算科學合作署主任Tony Mezzacappa在一次采訪中解釋道。
一大典型實例就是識別欺詐性醫療索賠,因為這類狀況往往涉及大量數據。通過將所有數據導入內存當中,我們可能會發現某些情況孤立存在于某一案例中,這意味著其存在著屬于欺詐的潛在可能性,田納西大學研究與經濟發展辦公室商業分析主任Ken Gilbert在一次采訪中表示。
計算能力極為強大
目前一部分走在全球前沿的企業正在利用超級計算機擴展自身的計算能力。而且即使已經擁有自己的超級計算設備,部分企業仍然會偶爾與高校或者***實驗室合作,因為他們希望擁有更加強大的計算能力或者資源集合,從而更加有效且高效地解決特定問題。
實驗與產品開發工作廣泛存在而且需要投入大量時間,”計算科學合作署主任Tony Mezzacappa表示。在制藥行業當中,超級計算方案在加快藥品開發速度與降低藥物開發成本方面扮演著重要角色。 飛機制造商則利用超級計算機來處理大量流體力學方面的計算問題。企業與市政機構利用超級計算機提高交通流量執行效率,而數據則由部署在街道上的傳感器所生成。企業能夠利用這些數據優化車輛的先進路線與交付時間,同時借此降低燃料成本與碳排放量。市政機構則利用這些數據改善交通條件、改善災害抵御能力并更加高效地執行人員疏散策略。
#p#
互連機制可謂至關重要
與過去相比,企業如今能夠更加有效地利用自有資源以及云服務處理規模龐大的數據集合。不過考慮到各節點之間的互連速度因素,超級計算方案的實際效果往往更為出色。
不同的互連機制會對實際執行時間造成巨大影響,”計算科學合作署主任Tony Mezzacappa表示。大家可能擁有一套龐大的集群,但有時候這套集群不一定能夠有效執行規模龐大的計算任務。事實上,互連機制將成為左右并行計算設備實際效率的關鍵因素。 橡樹嶺實驗室計算與計算科學實驗室副主任Jeff Nichols認為,從云服務與超級計算機之間作出選擇時,大家需要首先明確數據、數據移動情況(也就是數據在處理器與存儲體系之間的往來狀況)、計算資源需求量以及所需節點數量等信息。
如果大家能夠在云環境下解決相關問題,那么云方案當然是***,”Nichols表示。不過很多因素也制約著大家利用云服務來處理工作負載,包括計算內容的隱私屬性或者對導出控制能力的擔憂等。但只要排除了這些問題,云服務確實成本低廉而且往往也是最理想的備選資源供應方式。
先進的建模能力
從糖果加工到輪胎制造行業,眾多企業都在使用超級計算機,而計算科學合作署的科學家們則幫助這些用戶進一步調整其建模能力。對于輪胎廠商而言,這意味著在各個階段的生產環節以及組件制造環節中,包括利用橡膠、聚合物以及其它原材料制作組件,引入建模機制。整個流程擁有非常復雜的層次結構,與企業的經營決策、輪胎產品生產、所制造輪胎的設計開發、輪胎安全性與可靠性以及具體銷售方式都緊密相關。不確定因素在流程當中絕不允許存在,因為輪胎的安全性與可靠性直接決定著用戶的生命財產安全。
數據類型多種多樣,具體包括模擬數據以及根據這些數據匯總出的部分實驗性信息得到的分析結果,”計算科學合作署主任Tony Mezzacappa指出。大家需要將實驗性數據作為輸入信息導入模型當中,而后這些模型將根據輪胎的實驗性數據及模型生成進一步輸出結果,告訴我們其將在特定情況下出現怎樣的變化。如此一來,大家就能夠圍繞模擬數據為核心、利用實驗性信息發現所有可能存在的意外狀況,并以故意改變輸入及輸出結果的方式對不確定性因素加以量化,從而確定該如何更準確地進行模擬并由此引發的影響。最終的輪胎設計方案到底夠不夠安全?超級計算機會告訴我們答案。
#p#
擴展可能性的疆域
對于那些不熟悉當前超級計算機甚至是云服務能力的企業而言,他們可能根本無法理解計算能夠帶來怎樣令人驚嘆的成果。由于解決問題的能力受到嚴重局限,他們不可能意識到如今的計算資源已經強大到如何超乎想象的程度,自然也就沒辦法找到問題的***解決辦法。
有時候,新手們可能不知道該從哪里入手或者首先提出什么樣的問題,所以我們會設計一套理解點,引導他們掌握自己要做什么、告訴用戶我們在做些什么、我們能夠提供哪些資源并具體解決哪些問題,包括那些能夠提出并得到解決的特定問題,”計算科學合作署主任Tony Mezzacappa表示。當他們了解到可能性的具體范疇之后,眼界也會隨之開闊,因為時候他們原本認為不可能的任務事實上非常可能甚至毫無難度。 當某項難題超過了現有系統的計算能力時,企業用戶可以轉而向云服務供應商或者計算科學合作署這樣的機構尋求幫助,具體取決于他們的實際需求。那些熟稔計算科學的企業用戶往往會向計算科學合作署求助以獲取更多資源——包括計算資源、內存或者二者皆有——或者能夠跨越多種不同系統以串連方式執行的資源集合(例如共享內存計算機或者分布式內存計算機)來執行相應工作流。
加快發現的腳步
規模龐大且歷史悠久的企業往往已經擁有數十年的超級計算機使用經歷,但一部分初創公司也同樣有著借助超級計算資源解決問題的愿望。舉例來說,Atomwise這家決心改變藥品發現及開發方式的初創企業就利用IBM的超級計算機對七千種藥品進行檢測,希望從中找到治療埃博拉病毒的有效辦法。在經過四個月的虛擬探索之后,他們成功發現了兩種有效性證據。目前計算科學合作署與橡樹嶺國家實驗室已經擁有大量初創企業用戶。
原文標題:Supercomputers Unleash Big Data's Power