高大上!五個Python高級可視化圖表!
1. 和弦圖(Chord Diagram)
和弦圖,作為一種數據可視化工具,獨具匠心地展示了數據間的復雜關系。在圖表中,節點井然有序地分布于圓周之上,點與點之間則以優雅的弧線相互連接,這些弧線不僅揭示了數據間的內在聯系,還通過其長度的差異,直觀地反映了連接間的數值大小。更進一步,弧線的粗細程度還巧妙地映射出數據間關系的重要性,使觀察者能一目了然地洞察數據背后的故事。
此外,和弦圖還巧妙地運用了色彩這一視覺元素,將數據分門別類,使得數據的比較和區分變得直觀且易于理解。這一特性使得和弦圖在多個領域都有著廣泛的應用,特別是在生物科學領域,它成為了可視化基因數據的得力助手。在國際學術刊物上,和弦圖更是被譽為信息圖表(info graphics)的典范,用于揭示社交網絡的交織、基因組的奧秘、交通流的動態以及貿易關系的錯綜復雜。
以下示例代碼使用Holoviews & Bokeh創建和弦圖,展示5個不同國家之間的貿易關系。
import holoviews as hv
from holoviews import opts
import pandas as pd
import numpy as np
hv.extension('bokeh')
# Sample matrix representing the export volumes between 5 countries
export_data = np.array([[0, 50, 30, 20, 10],
[10, 0, 40, 30, 20],
[20, 10, 0, 35, 25],
[30, 20, 10, 0, 40],
[25, 15, 30, 20, 0]])
labels = ['USA', 'China', 'Germany', 'Japan', 'India']
# Creating a pandas DataFrame
df = pd.DataFrame(export_data, index=labels, columns=labels)
df = df.stack().reset_index()
df.columns = ['source', 'target', 'value']
# Creating a Chord object
chord = hv.Chord(df)
# Styling the Chord diagram
chord.opts(
opts.Chord(
cmap='Category20', edge_cmap='Category20',
labels='source', label_text_font_size='10pt',
edge_color='source', node_color='index',
width=700, height=700
)
).select(value=(5, None))
# Display the plot
chord
https://holoviews.org/reference/elements/matplotlib/Chord.html
https://github.com/moshi4/pyCirclize
2. 旭日圖(Sunburst Chart)
旭日圖(Sunburst Chart)以其獨特的視覺呈現方式,超越了傳統的餅圖和環圖,能夠清晰地表達數據的層級和歸屬關系。它通過父子層次結構來展示數據的構成情況,使用戶能夠輕松理解和分析復雜的層次數據。
旭日圖由多個環形組成,每個環形都代表著層次結構中的一個不同級別。圖表的中心是層次結構的根或頂層,象征著數據的起點。每個環上的每個部分或扇區則代表著該層次結構中的一個具體節點,而每個部分/扇區的大小則與其在兄弟節點中的相對值成比例,直觀地反映了數據的重要性。
旭日圖在多個領域中都展現出了其強大的數據可視化能力,如計算機文件系統的層級結構、網站用戶的導航路徑、市場細分數據的層級關系以及復雜的基因組數據等。這些應用場景都通過旭日圖得以清晰、直觀地呈現,幫助用戶快速理解數據的內在結構和邏輯關系。
下面是一段使用Python庫Plotly繪制旭日圖的示例代碼,您可以通過這段代碼輕松創建出具有豐富層次結構和數據信息的旭日圖。
import plotly.express as px
import numpy as np
df = px.data.gapminder().query("year == 2007")
fig = px.sunburst(df, path=['continent', 'country'],
values='pop',
color='lifeExp',
hover_data=['iso_alpha'],
color_continuous_scale='RdBu',
color_continuous_midpoint=np.average(df['lifeExp'], weights=df['pop']))
fig.show()
https://plotly.com/python/sunburst-charts/
3. 六邊形箱圖(Hexbin Plot)
六邊形箱圖(通常稱為六邊形分箱圖或六邊形熱力圖)是一種非常有效的可視化工具,用于展示二維數據分布,尤其是在數據點過于密集而導致傳統散點圖難以區分單個點的情況下。這種方法將數據空間劃分為一系列六邊形單元(或“箱”),并根據每個單元中的數據點數量進行著色,從而提供了數據分布情況的直觀表示。
以下是一個使用Python和Matplotlib庫創建六邊形分箱圖的示例,旨在揭示空氣質量惡化(使用空氣質量指數/AQI)與增加的醫院就診之間的潛在相關性。請注意,為了簡化示例,我們將使用模擬數據。
import numpy as np
import matplotlib.pyplot as plt
from mplhexbin import HexBin
# 假設的模擬數據
np.random.seed(0) # 確保結果可復現
n_points = 10000
x = np.random.rand(n_points) * 100 # 空氣質量指數(AQI)范圍從0到100
y = 5 * np.sin(x * np.pi / 50) + np.random.randn(n_points) * 15 # 假設的醫院就診數量,與AQI相關但具有噪聲
# 創建一個新的圖形
fig, ax = plt.subplots(figsize=(10, 8))
# 使用HexBin創建六邊形分箱圖
hb = HexBin(ax, gridsize=20, cmap='viridis', extent=[0, 100, -30, 50]) # 設置網格大小、顏色映射和范圍
hb.hexbin(x, y, mincnt=1) # 繪制六邊形分箱圖,mincnt設置最小計數閾值
# 添加標題和軸標簽
ax.set_title('空氣質量指數(AQI)與醫院就診數量的關系')
ax.set_xlabel('空氣質量指數(AQI)')
ax.set_ylabel('醫院就診數量')
# 顯示圖形
plt.colorbar(hb.cmap, ax=ax, label='數據點數量') # 添加顏色條并設置標簽
plt.show()
https://matplotlib.org/stable/gallery/statistics/hexbin_demo.html
4. 桑基圖(Sankey Diagram)
桑基圖(Sankey Diagram),也被稱為桑基能量分流圖或桑基能量平衡圖,是一種特殊類型的流程圖,特別適用于展示能源、材料成分、金融等領域中數據流量的可視化分析。這一圖表類型的命名源于1898年Matthew Henry Phineas Riall Sankey所繪制的“蒸汽機的能源效率圖”,該圖因其直觀展示能量流動的方式而廣受贊譽,并因此得名“桑基圖”。
桑基圖通過節點和它們之間的鏈接來表示系統不同階段或部分之間數量的流動。節點通常表示系統中的不同部分或階段,而鏈接則表示這些部分或階段之間的流動關系。最為獨特的是,桑基圖中鏈接的寬度直接與流動的數量成比例,使得數據的規模和流向一目了然。
通過這種直觀的數據可視化方式,桑基圖可以幫助用戶更好地理解系統中各部分之間的能量、物質或資金的流動情況,從而有助于做出更明智的決策。在能源、材料科學、經濟學和金融學等領域,桑基圖已經成為一種不可或缺的數據分析工具。
Plotly庫可以用來創建如下所示的桑基圖。以下代碼表示能量從生產源流向小城市的消費者。
import plotly.graph_objects as go
labels = ["Coal", "Solar", "Wind", "Nuclear", "Residential", "Industrial", "Commercial"]
source = [0, 1, 2, 3, 0, 1, 2, 3]
target = [4, 4, 4, 4, 5, 5, 5, 5]
value = [25, 10, 40, 20, 30, 15, 25, 35]
# Create the Sankey diagram object
fig = go.Figure(data=[go.Sankey(
node=dict(
pad=15,
thickness=20,
line=dict(color="black", width=0.5),
label=labels
),
link=dict(
source=source,
target=target,
value=value
))])
fig.update_layout(title_text="Energy Flow in Model City", font_size=12)
fig.show()
https://plotly.com/python/sankey-diagram/
5. 主題河流圖(Stream Graph/ Theme River)
主題河流圖,顧名思義,其形態宛如自然界的河流,實際上它是一種獨具匠心的流圖設計。這種圖表主要用于描繪事件或主題隨時間而發生的動態變化。河流圖中,不同的顏色巧妙地區分了各個類別,或用以展示每個類別的附加定量信息。而河流的流向則與橫貫圖表的X軸平行,清晰映射出時間的流逝。
更為精妙的是,每個類別的數值大小通過“河流”的寬度來直觀展現。當某一類別的數值增大時,其對應的河流部分便會拓寬;而當數值減小,河流則相應地變窄。這種變化使得整個圖表仿佛是由無數條寬窄不一的河流匯集、交織而成,從而得名“主題河流圖”。這種設計不僅富有美感,更能讓觀察者一目了然地掌握數據的變化趨勢和相互關系。
Altair數據可視化庫可用于繪制流圖,如下所示。
import altair as alt
from vega_datasets import data
source = data.unemployment_across_industries.url
alt.Chart(source).mark_area().encode(
alt.X('yearmonth(date):T',
axis=alt.Axis(format='%Y', domain=False, tickSize=0)
),
alt.Y('sum(count):Q', stack='center', axis=None),
alt.Color('series:N',
scale=alt.Scale(scheme='category20b')
)
).interactive()