8個現實世界大數據部署實例
8個現實世界大數據部署實例
世界上的數據量正在成指數增加,每18個月就增加一倍。現在有很多關于大數據的討論,主要圍繞大數據帶來的問題以及大數據帶來的潛在價值。本文中,讓我們看看8個不同行業的大數據部署實例。
點評:世界上的數據量每18個月就增加一倍,下面我們就來看看8個不同行業的大數據部署實例。#p#
美國國家海洋和大氣管理局(NOAA)國家氣象服務
美國國家海洋和大氣管理局(NOAA)從事大數據業務已經長達50年,現在他們每年管理著30PB新數據----每天從衛星、船舶、飛機、浮標和其他傳感器收集超過35億觀測數據,然后使用大氣、海洋和陸地的直接測量數據連同復雜的高保真預測建模來提供國家氣象服務(NWS)。NWS的模型每天產生數以百萬計的“產品”(天氣警報和指導)提供給公共和私營部門,包括國防部和NASA等政府部門。
點評:氣象服務需要精準的、大型的數據計算。#p#
AM Biotechnologies DNA序列分析解決方案
AM Biotechnologies生物技術公司專注于開發一個專有新技術,用于產生基于DNA的分子實體—aptamers(核酸適配子)。核酸適配子的應用范圍涉及對血液試樣中特定分析物的定量分析,以及在體內將藥物輸送到特定目標。開發這些核酸適配子需要分析幾十億短的DNA序列,它使用基于網絡的大數據分析工具(來自CD-HIT和Galaxy)來分析這些數據。
點評:特定分析物的定量分析,需要大數據的幫助。#p#
NARA電子記錄存檔
美國國家檔案和記錄管理局(NARA)是美國官方記錄的維護者,它管理142TB的信息,這代表著超過70億對象,包括來自全國各地聯邦機構生態系統、國會和幾個總統圖書館的記錄。這些被數字化的記錄以超過4800種不同的格式存在。此外,NARA還正在數字化超過四百萬立方英尺的傳統歸檔信息,到2016年,95%的電子歸檔信息將需要提供給研究人員,NARA已經建立了電子記錄存檔(ERA)作為“系統中的系統”來執行各種歸檔功能和記錄管理。
點評:對象數目龐大,聯絡記錄復雜,需要大數據。#p#
Vestas風能型風力發電機的安置和維護
丹麥公司Vestas使用超級計算機和大數據建模解決方案來為其風力發電機找出最佳位置,以最大限度地提高發電和降低能源成本。它使用的風力庫整合了來自全球天氣系統的數據,以及通過其現有發電機收集的數據,目前,這個風力庫承載的數據約2.8PB,目前的參數包括溫度、氣壓、濕度、降水、風向和風速,以及該公司的歷史數據記錄等。
點評:Vestas還計劃增加全球森林砍伐指標、衛星影像、歷史指標、地理空間數據以及月球和潮汐關系的數據。#p#
IRS合規數據倉庫
在1996年,美國國內稅務署(IRS)啟動了一個項目以上傳單一年度的納稅申報資料進行分析,這個項目產生了合規數據倉庫(CDW),其中包含超過1PB的信息。大多數傳統數據都是結構化數據,但以電子方式提交的納稅申請表中的新數據以及來自國際稅務條約合作伙伴和第三方的新數據都是XML或者其他半/非結構化格式。IRS研究小組負責對這些數據進行分析,他們的工作涉及評估美國稅收差距、預測身份盜竊、評估納稅人的負擔以及模擬納稅政策變化的影響。
點評:非結構式信息,數據量龐大,需要大數據。#p#
安大略理工大學(UOIT)醫療監控
UOIT與IBM正在進行Artemis項目,旨在努力提高醫療監測技術,以便在生命體征達到臨界水平(例如院內感染,這對早產兒是生命威脅)之前發出預警信息。Artemis項目是基于流分析軟件,這是一個信息處理架構,可實現近乎實時的決策支持(通過對數據流的持續分析)。#p#
點評:醫療需要。
TerraEchos外圍入侵檢測
TerraEchos專注于開發保護和監測關鍵基礎設施的技術,其客戶之一是美國能源部能源實驗室,該實驗室依賴于TerraEchos的科學技術和資源,他們需要一個技術解決方案來檢測、分類、定位和跟蹤潛在威脅(機械和生物方面的)。要做到這一點,解決方案需要使用傳感器、分析軟件和高性能計算來不斷分析大量運動信息,從人類和動物運動到大氣情況等。
點評:這對分析工具和計算等都有嚴格要求。#p#
NASA載人航天圖像收集、存檔和托管
美國航空航天局約翰遜航天中心(JSC)是美國宇航員隊伍的樞紐,也是國際空間站(ISS)任務操作核心。自1959年以來,該航天中心收集了超過400萬靜態照片、950萬英尺的16mm膠片和85000個錄像帶和文件(也就是81616小時的視頻)。這些收集的數據主要用于科學和工程社區。NASA開發了一個Imagery Online(IO)應用程序,該應用程序鏈接圖像文件名到所有與之相關的元數據。
點評:但在向公眾提供這些數據方面,NASA還面臨著很大的挑戰。感謝觀看!