成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據流難以管理?借助StreamSets來駕馭

譯文
大數據
看看免費開源的StreamSets Data Collector如何為實時流數據帶來可見性和控制性。

【51CTO.com快譯】

[[175601]]

物聯網數據有望發掘獨特的、前所未有的業務洞察力,不過前提是企業能夠成功地管理從眾多物聯網數據源流入的數據。許多企業試圖從物聯網項目獲得價值,但經常遇到的一個問題是數據漂移(data drift):源設備和數據處理基礎設施經常發生不可預測的變化,因而導致數據的結構、內容或含義發生變化。

無論流式處理還是批量處理,數據通常經由眾多工具,從數據源進入到最后的存儲位置。這條鏈上任何地方的變化都會導致下流系統中出現不完整、不準確或不一致的數據,無論是源系統的模式發生變化、編碼字段值的含義發生變化,還是參與數據生成的軟件組件出現升級或添加。

這種數據漂移的影響可能危害特別大,因為它們常常長時間沒有被發現,因而讓低逼真度數據污染了數據存儲和隨后的分析。在被發現之前,使用這種有問題的數據會導致錯誤的發現結果和拙劣的業務決定。等到最后發現了問題,通常借助數據科學家的手動數據清理和準備來加以解決,這給數據分析增添了硬性成本、機會成本和延誤。

StreamSets Data Collector

使用StreamSets Data Collector來構建和管理大數據攝取管道將有助于緩解數據漂移的影響,同時大大縮短花在數據清理上的時間。我們在本文中將逐步介紹一種典型的使用場合:實時攝取物聯網傳感器生成的數據,饋入到HDFS,以便分析,并使用Impala或Hive實現可視化。

不用編寫一行代碼,StreamSets Data Collector就能從眾多數據源攝取流數據和批量數據。StreamSets Data Collector可執行轉換,并在數據流傳輸過程中清理數據,然后寫入到眾多目的地。管道部署到位后,你就能獲得細粒度的數據流度量指標、檢測異常數據,并發出警報,那樣你就能密切關注管道性能。StreamSets Data Collector可以獨立運行,也可以部署在Hadoop集群上,它提供了支持眾多類型的數據源和目的地的連接件。

下列使用場合涉及從貨運集裝箱實時生成的數據。

數據漂移的第一個例子體現在貨運集裝箱使用的物聯網傳感器。由于長期以來的升級,生產一線的傳感器運行三種不同固件版本中的一種。每種版本添加新的數據字段,改變模式。為了從該傳感器數據獲得價值,我們用來攝取信息的系統必須能夠兼顧這種多樣性。

清潔和傳送數據

我們的管道從RabbitMQ系統讀取數據,該系統負責從生產一線的傳感器接收MQTT消息。我們進行核實,確保我們收到的消息正是想要處理的那些消息。為此,我們使用數據流選擇器處理程序,為入站消息指定數據規則。然后,我們使用該規則宣布與該規則的標準匹配的所有數據都傳送到下游,但是不匹配的任何數據一概被丟棄。

然后,我們使用另一個數據流選擇器,根據設備的固件版本來傳送數據。與版本1匹配的所有記錄走一條路徑,與版本2匹配的所有記錄走另一條路徑,以此類推。我們還指定了一條默認的全部捕獲(catch-all)規則,將任何異常發送到一條“錯誤”路徑。針對現代數據流,我們完全預料到數據會出現意外的變化,于是我們設立了一種從容的錯誤處理機制:把異常記錄引到本地文件、Kafka數據流或輔助管道。那樣一來,我們就能保持管道正常運行,同時事后重新處理不符合主要目的的數據。

不妨從為固件版本3處理數據入手,這增添了緯度/經度數據。我們馬上想要確保那些字段出現在數據集中,而且數據包含有效的值。由于位置字段是一個嵌套的結構,我們想要對它作扁平化處理,最終丟棄嵌套的數據。

同樣,固件版本2包括新的方位字段(raw、pitch和roll),我們可以以一種類似的方式來核實和清潔它。

最后,所有設備版本都包含溫度和濕度讀數。首先,我們轉換這些讀數的數據類型。濕度轉換成了雙精度浮點型(double),濕度轉換成了整型(integer),日期轉換成了Unix時間戳。

然后我們使用腳本處理程序來編寫一些自定義邏輯,比如將華氏度值轉換成攝氏度。StreamSets腳本處理程序支持Jython、Groovy和JavaScript。

清理數據(也就是根據固件版本和最終用途來傳送數據)后,我們把它發送到幾個HDFS目的地。

配置目的地

StreamSets本身支持許多數據格式,比如明文、分隔文本、JSON、Protobuf和Avro。在該例子中,我們將把數據寫入到一個經過壓縮的Avro文件。

HDFS目的地可以靈活配置。你可以按照企業政策的要求來配置安全、動態配置輸出文件的路徑和位置,甚至決定寫入多個Cloudera CDH版本。

一旦你設計好了管道,就可以切換至預覽模式,使用數據樣本來測試和調試數據流。你可以逐步調試每一個處理程序,在任何階段分析數據狀態。

比如說,我們可以在下面看到,reading_date和temperature的數據類型被轉換成了長整型和雙精度浮點型。如果執行了轉換數據的運算,StreamSets也會提醒你。

你還可以把異常或“極端情況”數據注入到數據流,看看它對你的數據流有何影響。預覽模式讓你可以輕松地調試復雜的管道,不需要把管道放入到生產環境。

執行管道

現在我們準備執行管道,開始將數據攝入到我們的集群中。點擊“開始”按鈕,用戶界面就會切換至執行模式。

這時候,StreamSets Data Collector開始攝取數據,在內存中處理數據,然后將數據發送到目的地。屏幕底部的監控窗口顯示了各個實時度量指標,比如多少記錄讀入、多少記錄寫出。你還可以查看多少時間花在了每個處理程序上,它占用了多少內存。這些度量指標以及更多的指標還可以通過Java管理擴展(JMX)來加以訪問。

我們將數據送入到HDFDS后,立即就能開始查詢Impala,并運行分析、機器學習或可視化。

如今,由于用戶改動和更新系統,或者甚至更換平臺,物聯網設備、傳感器日志、Web點擊流及其他重要數據源在不斷變化。數據內容、結構、行為和含義的這些變化是不可預測、未宣布、沒完沒了的,它們會給數據處理和分析系統及其運營帶來重大危害。StreamSets Data Collector有助于管理數據基礎設施不斷出現的變化,馴服數據漂移,并確保數據處理系統的完整性。

原文標題:Tame unruly big data flows with StreamSets,作者:Arvind Pabhakar

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯:趙立京 來源: 51CTO
相關推薦

2015-10-28 10:55:36

2023-07-24 08:20:11

StreamJava方式

2023-07-26 00:20:20

Java 8數組方式

2019-06-18 13:51:08

大數據流處理新興市場

2011-08-29 10:19:09

Microsoft S控制較大數據流

2019-07-05 12:16:26

大數據IT互聯網

2013-09-03 10:03:27

大數據大數據處理

2021-07-23 11:32:05

大數據數據處理殺熟

2014-11-11 10:47:19

hadoop數據流

2011-12-14 15:57:13

javanio

2009-08-19 10:41:12

Java輸入數據流

2022-03-18 08:57:17

前端數據流選型

2013-04-18 10:00:40

大數據大數據全球技術峰會

2012-07-03 09:59:47

微軟Cloud Numer大數據

2021-09-26 05:03:31

數據流Redux

2013-01-15 13:04:26

駕馭大數據大數據

2013-09-02 10:02:01

大數據

2013-02-25 11:04:39

Teradata 大數據天睿

2013-05-06 10:55:53

2013-10-18 17:15:37

SAP
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美成年网站 | 日本xx视频免费观看 | 欧美在线观看一区 | 成人在线小视频 | 91国内产香蕉 | 精品国产乱码一区二区三区a | 岛国视频 | 日韩视频一区二区 | 91精品久久久久久久久久 | 久久久久国产精品 | 天天草天天操 | 国产视频第一页 | 97精品一区二区 | 熟女毛片 | av免费网| 91久久爽久久爽爽久久片 | 99久久免费精品国产免费高清 | 国产视频二区 | 欧美精品一区二区免费视频 | 亚洲日本中文 | 成年网站在线观看 | a视频在线 | 亚洲国产精品一区二区第一页 | 亚洲视频一区二区三区四区 | 精品国产欧美 | 欧美成ee人免费视频 | 久久久久久久久久久久亚洲 | 欧美激情第一区 | 久久国产精品-久久精品 | 狠狠综合久久av一区二区老牛 | 日韩欧美三区 | 一级欧美一级日韩片 | 国产精品亚洲一区二区三区在线观看 | 精品国偷自产在线 | 国产美女在线免费观看 | 成人伊人 | jizz视频 | 欧美色综合 | 国产一区二区三区久久久久久久久 | 欧美13videosex性极品 | 久久久一区二区 |