成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據開發中,這些讓你頭疼過嗎?

大數據
數據傾斜最籠統概念就是數據的分布不平衡,有些地方數據多,有些地方數據少。

[[425544]]

數據發散

什么是數據發散

在join的過程中,關聯鍵出現一對多,或者多對多時候,造出結果存在重復。

數據發散癥狀

癥狀

(1)結果存在重復。

(2)數據量劇增。

(3)可能導致無法使用正常資源處理完成。

排查

(1)出現這種原因就是

A left join B 的時候,使用主鍵的關聯條件中,沒有關聯到表B的最小粒度。

(2)查找是否是這種原因

select 關聯字段 from table group by 關聯字段 having count(關聯字段)>1 就可以判定是否有關聯字段出現不唯一的發散情況。

避免或解決

(1)如果右表關聯字段有重復值則要去重,否則數據會發散。

(2)仔細寫好SQL,是否存在業務邏輯的錯誤(關聯字段用錯)。

笛卡兒積

什么是笛卡兒積

笛卡爾積在SQL中的實現方式既是交叉連接(Cross Join)。所有連接方式都會先生成臨時笛卡爾積表,笛卡爾積是關系代數里的一個概念,表示兩個表中的每一行數據任意組合 。

笛卡兒積案例

A表

id name city
1 aa 1001
2 bb 1002
3 cc 1003

B表

id city_name
1 a城
2 b城
3 c城

SQL

  1. SELECT * FROM A,B; 

結果

id name city id city_name
1 aa 1001 1 a城
1 aa 1001 2 bb
1 aa 1001 3 c城
2 bb 1002 1 a城
2 bb 1002 2 bb
2 bb 1002 3 c城
3 cc 1003 1 a城
3 cc 1003 2 bb
3 cc 1003 3 c城

產生原因

(1)當連接沒有on條件是,會出現笛卡爾積(全部笛卡爾積)。

(2)當連接on條件是非唯一字段時,會出現笛卡爾積(局部笛卡爾積)。

(3)join的兩個表中都含有空值。

怎么避免或解決

(1)關聯范圍在最小粒度的列.

(2)檢查表的關聯字段是否有空值。

數據傾斜

什么是數據傾斜

數據傾斜最籠統概念就是數據的分布不平衡,有些地方數據多,有些地方數據少。在計算過程中有些地方數據早早地處理完了,有些地方數據遲遲沒有處理完成,造成整個處理流程遲遲沒有結束,這就是最直接數據傾斜的表現。

數據傾斜癥狀

Hive

hive自身的MR引擎:發現所有的map task全部完成,并且99%的reduce task完成,只剩下一個或者少數幾個reduce task一直在執行,這種情況下一般都是發生了數據傾斜。說白了就是Hive的數據傾斜本質上是MapReduce的數據傾斜。

Flink

(1)Flink 任務出現數據傾斜的直觀表現是任務節點頻繁出現反壓。

(2)部分節點出現 OOM異常,是因為大量的數據集中在某個節點上,導致該節點內存被爆,任務失敗重啟。

Spark

(1)Executor lost,OOM,Shuffle過程出錯。

(2)Driver OOM。

(3)單個Executor執行時間特別久,整體任務卡在某個階段不能結束。

(4)正常運行的任務突然失敗。

怎么避免或解決

不管再出現分布式計算框架出現數據傾斜問題解決思路如下:很多數據傾斜的問題,都可以用和平臺無關的方式解決,比如更好的數據預處理,異常值的過濾等。因此,解決數據傾斜的重點在于對數據設計和業務的理解,這兩個搞清楚了,數據傾斜就解決了大部分了。關注這幾個方面:

業務邏輯方面

(1)數據預處理。

(2)解決熱點數據:分而治之(第一次打散計算,第二次再最終聚合計算)。

程序代碼層面

(1)導致最終只有一個Reduce任務的,需要想到用替代的關鍵字或者算子去提升Reduce任務數。

(2)調參。

熟悉自己手中的工具(框架)

優秀的框架已經負重前行給你優化了好多不僅要學,更學會去用,更要努力去完善拓展框架功能。

責任編輯:張燕妮 來源: 大數據左右手
相關推薦

2020-01-20 14:30:39

HTTP概念標頭

2023-03-13 13:36:00

Go擴容切片

2017-10-11 13:42:40

DIY裝機電腦

2018-09-11 09:14:52

面試公司缺點

2021-10-09 09:47:14

Java開發 bug

2021-01-07 05:40:13

BLE模塊Android

2025-01-13 00:17:49

Java開發對象

2021-02-22 09:00:00

Jenkins工具開發

2021-06-01 05:16:49

前端開發技術熱點

2018-08-01 14:45:16

PHP編程語言

2015-12-01 09:02:58

ios界面流暢

2017-11-08 10:54:32

大數據算法機器學習

2015-04-07 12:19:30

Web開發開發資源

2012-06-20 15:01:25

iOS開發

2023-12-05 08:20:05

單例模式Python

2023-06-13 13:52:00

Java 7線程池

2019-11-25 21:46:12

數據湖云計算數據倉庫

2019-12-24 08:46:49

Redis技巧數據量

2018-05-24 08:58:45

數據備份磁帶

2013-10-30 09:53:27

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲人成人一区二区在线观看 | 亚洲第一色站 | 欧美性受xxxx | 一区二区三区国产 | a免费观看 | 日本公妇乱淫xxxⅹ 国产在线不卡 | 日韩一区二区福利视频 | 亚洲人精品午夜 | 一区二区不卡视频 | 欧美国产精品一区二区三区 | 久色激情| 在线婷婷| 五月激情综合网 | 欧美日韩精品久久久免费观看 | 日韩在线一区二区 | 日日夜夜精品 | 亚洲视频在线看 | 成人国产精品一级毛片视频毛片 | 久色网 | 国产精品高潮呻吟久久 | 在线免费观看a级片 | 成人免费小视频 | 欧美一区精品 | a免费视频| 午夜久久久久久久久久一区二区 | 精品日韩电影 | 亚洲入口 | 久久69精品久久久久久国产越南 | 99精品一区二区 | 九色综合网 | 精品视频久久久久久 | 久久久久久免费精品一区二区三区 | 免费观看www7722午夜电影 | 视频一区在线观看 | 视频一区二区在线观看 | 91精品欧美久久久久久久 | 伊人在线 | 国产精品成人在线播放 | 成人免费视频在线观看 | 久久精品国产一区二区三区不卡 | 国产日韩欧美中文字幕 |