Flink on Zeppelin 流計算處理最佳實踐
內容框架:
大數據概覽
Flink 學習框架
EMR Studio 上的流計算最佳實踐
演示
一、大數據概覽
大數據處理 ETL (Data → Data)
大數據分析 BI (Data → Dashboard)
機器學習 AI (Data → Model)
二、Flink 學習框架
Flink 要點
Stateful
Time
Flink Architecture
Flink API
Flink Configuration
Flink Log
Stateful:
Why
流計算的及時性
流計算的 unbounded
When
Window
Join
Pattern
How
statebackend
Time
Event time
Processing time
Watermark
Flink Architecture
Flink API
Flink Configuration
Cluster Configuration
Job Configuration
Statebackend
Resource Manager
SQL/Python
參考文檔:https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/config/
Flink Log
三、EMR Studio 上的流計算最佳實踐
EMR Studio 特性:
兼容開源組件
EMR Studio 在開源軟件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基礎上優化了做了優化和增強。
支持連接多個集群
適配多個計算引擎
交互式開發 + 作業調度無縫銜接
適用多種大數據應用場景
計算存儲分離
Flink Clients
Flink on Zeppelin (Phase 1) - Interactive Flink Client
Flink on Zeppelin (Phase 2) - Interactive JobManager
Flinkon Zeppelin 主要 Feature
原文鏈接:http://click.aliyun.com/m/1000286010/