成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用Apache Flume抓取數據(1)

大數據
使用Apache Flume抓取數據,怎么來抓取呢?不過,在了解這個問題之前,我們必須明確ApacheFlume是什么?

使用Apache Flume抓取數據,怎么來抓取呢?不過,在了解這個問題之前,我們必須明確ApacheFlume是什么?

一、什么是Apache Flume

Apache Flume是用于數據采集的高性能系統 ,名字來源于原始的近乎實時的日志數據采集工具,現在廣泛用于任何流事件數據的采集,支持從很多數據源聚合數據到HDFS。

最初由Cloudera開發 ,在2011年貢獻給了Apache基金會 ,在2012年變成了Apache的***項目,Flume OG升級換代成了Flume NG。

Flume具有橫向擴展、延展性、可靠性的優勢

二、Flume 體系結構

Source:接受外部系統生成event

Sink:發送event到指定的目的地

Channel:從Source緩存event,直到Sink把event取走

Agent:一個獨立的Flume進程,包含了source,channel和sink組件

三、Flume設計目標:可靠性

Channels提供了Flume可靠性保障 ,那么它通過什么樣的方式來保障呢?默認的模式就是Memory Channel,Memory Channel就是內存,所有的數據存放在內存當中。那么,這里就會存在一個問題?如果Channel的節點出現斷電,數據就會丟失。為解決這一問題,這里有另外一種模式,就是基于磁盤的Channel,基于磁盤的隊列確保出現斷電時數據不丟失 。

另外,Agent和Channel之間的數據傳輸是事務性的 ,傳輸給下游agent失敗的數據會回滾和重試 。相同的任務可以配置多個Agent,

比如,兩個agent完成一個數據采集作業,如果一個agent失敗,則上游的agent會失敗切換到另一個。

四、Flume設計目標:擴展性

當我們采集的數據特別多的時候,可以通過添加更多的系統資源從而線性地增加系統性能。而且Flume可橫向的擴展規模 ,隨著復雜增加,可以添加更多的機器到配置當中 。

五、Flume設計目標:延展性

延展性就是能夠添加新的功能到系統中。Flume通過添加Sources和Sinks到現有的存儲層或數據平臺,常見的Sources包括files、syslog和任何linux進程的標準輸出的數據;常用Sinks包括本地文件系統或HDFS,開發員可以寫自己的Sources或Sinks。

六、常見的Flume數據源

七、大規模部署實例

Flume使用agents收集數據 ,Agents可以從很多源接收數據,包括其他agents。大規模的部署使用多層來實現擴展性和可靠,Flume支持傳輸中數據的檢查和修改。

以上就是關于Apache Flume的部分詳情介紹,后續將會繼續分享。大數據將會是未來的風口,要想很好的站在風口上,就要持續不斷地學習和努力,這里推薦大家關注一個微信公眾號“大數據cn ”,里面有很多關于大數據知識的介紹,對于想要了解和學習大數據的人是一個很好的平臺。

責任編輯:武曉燕 來源: 11872756博客
相關推薦

2017-07-18 14:10:31

大數據Apache Flum過濾器

2024-02-29 07:42:00

數據系統數據庫數據處理

2009-09-25 11:14:16

Hibernate批量

2016-11-25 13:26:50

Flume架構源碼

2023-01-28 08:00:00

PythonHTML表格數據

2020-08-24 14:21:27

app爬蟲Python

2023-03-09 15:55:17

JavaScriptURLCSS

2017-05-08 15:47:06

2020-10-12 08:19:43

Python爬蟲網頁數據

2022-06-01 13:52:11

開源大數據

2016-12-13 16:11:44

Java Hadoop

2017-02-24 11:00:57

iOS抓取HTML解析數據

2015-10-16 09:21:13

SparkMySQL數據分析

2015-04-23 13:29:02

Flume分布式服務HDFS

2011-03-11 08:58:26

Apache Couc

2016-12-20 09:47:38

Apache SparLambda架構

2014-05-19 15:52:57

Apache StraApache

2015-11-11 13:45:42

Apache工具集

2021-05-11 09:02:34

OpenSearch存儲Elastcsearc

2019-09-30 08:28:53

Delta LakeSpark數據原理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 爱综合| 97精品超碰一区二区三区 | 在线小视频 | 欧美激情精品久久久久久变态 | 午夜码电影 | 正在播放国产精品 | 91精品在线播放 | 国产精品不卡视频 | 国产美女h视频 | 91视视频在线观看入口直接观看 | 国产高清一区二区 | 免费黄色成人 | 国产91丝袜在线熟 | 日韩精品在线观看一区二区三区 | 污片在线观看 | 亚洲精品久久久一区二区三区 | 激情三区 | 精品99久久| 国产不卡在线播放 | 亚洲网站在线播放 | 亚洲成人一区 | 福利片一区二区 | 国产色| a级黄色片视频 | 国产情侣一区 | 国产视频福利一区 | 天天草天天爱 | 古装人性做爰av网站 | 日韩亚洲视频 | 99热这里有精品 | 日韩一区二区成人 | 成人不卡 | 国产精品一区二区三区久久久 | 久久综合一区二区三区 | 视频一区二区三区中文字幕 | 草草视频在线观看 | 91色站 | 日日精品 | 日韩一区二区三区在线 | 91精品在线播放 | 亚洲综合无码一区二区 |