成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼? 原創

發布于 2025-7-30 07:37
瀏覽
0收藏

本文聚焦 GPU 這一 AI 時代的核心算力引擎,從 CPU 與 GPU 的本質差異切入,解析二者在架構設計(運算單元占比、并行能力)和協同工作流程(數據傳輸、指令注入、并行計算、結果回傳)的底層邏輯。

以 NVIDIA H100(Hopper 架構)為核心案例,深入拆解其基本架構:80GB HBM3 顯存的高帶寬設計、PCI-E 5.0 接口的傳輸能力,以及內部層級化結構 —— 從頂層 GPC(圖形處理集群)、中層 TPC(紋理處理集群)到核心 SM(流式多處理器)的功能分工。同時,詳解 SM 的四象限組成(Tensor Core、CUDA Core 等計算單元及緩存系統)、五級緩存機制(寄存器、L0/L1/L2 緩存、HBM3)的動態調度策略,以及 TMA(張量內存加速器)對數據搬運效率的革命性提升,為理解 GPU 高性能計算原理提供全景視角。

GPU:AI時代的算力引擎

在AI技術蓬勃發展的今天,大模型訓練和推理應用正在各個行業快速普及。越來越多的企業開始自行訓練AI模型,或是基于大廠提供的基礎模型進行二次開發。在這個過程中,數據隱私保護的要求促使企業傾向于在本地部署AI模型,而不是完全依賴云端服務。這種趨勢使得硬件部署成為了AI應用落地的重要課題,而GPU作為AI計算的核心硬件,自然成為了關注的焦點。

CPU VS GPU

在計算機系統中,CPU(中央處理單元)和GPU(圖形處理單元)是兩個核心組件,它們各自承擔著不同的任務,設計理念和架構也有所不同。CPU是計算機的大腦,負責處理操作系統和應用程序運行所需的各類計算任務。它具有強大的通用性,能夠處理各種復雜的數據類型和邏輯判斷。CPU的內部結構非常復雜,因為它需要應對大量的分支跳轉和中斷處理,以確保程序能夠高效、穩定地運行。由于CPU需要處理的任務種類繁多,它的設計更注重邏輯控制和串行計算能力,通過流水線技術等手段縮短程序的執行時間。

如下圖所示,從架構上看,CPU和GPU都包含運算單元(ALU)、控制單元(Control)和緩存單元(Cache),但三者所占的比例截然不同。CPU的緩存單元占據了很大一部分空間,大約占50%,控制單元占25%,運算單元僅占25%。這種設計使得CPU能夠通過緩存減少數據訪問的延遲,提高處理效率。而GPU的緩存單元僅占5%,控制單元占5%,運算單元則占據了90%。GPU的設計更注重運算能力的提升,通過大量運算單元和線程來實現高吞吐量。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

在并行處理能力方面,CPU擁有少量的強大計算單元,適合處理順序執行的任務。它的時鐘頻率很高,能夠在很少的時鐘周期內完成算術運算。CPU還具備復雜的控制邏輯單元,可以提供分支預測能力,使其在處理邏輯控制和串行計算時表現出色。相比之下,GPU采用了數量眾多的計算單元和線程,能夠實現非常大的計算吞吐量。GPU的超配線程設計可以很好地平衡內存延遲問題,從而同時處理多個任務,專注于大規模高度并行的計算任務。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

一言以蔽之,CPU更適合處理順序執行的任務,如操作系統、數據分析等;而GPU則適合處理需要大規模并行計算的任務,如圖形處理、深度學習等。

CPU 與 GPU 協同工作

在了解了CPU(中央處理器)和GPU(圖形處理器)的不同功能和特點后,我們可以進一步探討它們是如何協同工作的。CPU和GPU雖然在設計和功能上有所不同,但通過高效協作,能夠充分發揮各自的性能優勢,提升整體系統的計算效率。接下來,我將通過下面這張圖來展示CPU與GPU協作的全過程。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

根據圖上的標號,進行詳細解釋:

數據傳輸階段

  • CPU發起DMA(Direct Memory Access,直接內存訪問),將系統主內存中的數據復制到GPU內存中。

指令注入階段

  • CPU向GPU注入指令,告訴GPU需要執行的任務。 ?
  • 例如,在深度學習任務中,這些指令可能包括模型推理或訓練的命令。

并行計算階段

  • GPU中的多個計算線程會并行執行CPU注入的指令。 ?
  • 由于GPU擁有大量計算核心,特別適合處理高度并行化的任務,如矩陣運算。

結果回傳階段

  • GPU完成計算后,會通過DMA將結果數據從GPU內存復制回系統主內存中。 ?
  • 這些結果可能包括模型的推理輸出或訓練過程中的中間結果。通過這種協作機制,CPU負責任務的調度和管理,而GPU則專注于執行高并行化的計算任務,從而實現了計算資源的高效利用。

GPU 基本架構

在介紹了CPU和GPU的協作方式后,我們接下來將聚焦于GPU的內部機構,特別是以NVIDIA H100(基于Hopper架構)為例,深入了解其高性能計算的核心秘密。作為英偉達于2022年發布的旗艦級GPU加速器,H100專為高性能計算(HPC)、人工智能(AI)和大規模數據中心設計,是前代A100(Ampere架構)的升級版。其內部設計采用了多項突破性技術,其中最引人注目的是其高帶寬內存(HBM)和PCI-E 5.0接口的結合。

如下圖所示,H100配備了80GB的HBM3顯存,這是其性能的核心保障之一。與之配套的顯存技術——高帶寬內存(HBM),是一種基于3D堆疊技術的高性能內存標準。通過將多個DRAM芯片垂直堆疊在GPU芯片旁邊(圖的左側)。多個 HBM 堆疊的部分就是顯卡的顯存。而在它右邊通過雙箭頭連接的綠色區域就是顯卡的運算核心,包含:運算、緩存、控制等功能,在后面的內容中會展開描述。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

讓我們將上面的圖片放大, 關注 HBM 顯存本身,如下圖所示。多個顯存芯片(HBM)通過硅通孔(TSV, Through-Silicon Via)實現層間通信,像一棟高樓,每層樓是一個DRAM芯片,通過“電梯”(TSV)快速連通所有樓層,從而實現了更高的傳輸效率。HBM顯著提升了內存帶寬,同時減少了功耗和占用面積。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

需要注意的是,H100芯片支持6個HBM堆棧(HBM Stack),每個堆棧可提供800GB/s的傳輸帶寬,總內存帶寬高達4.8TB/s。

在連接方面,H100通過16個PCI-E 5.0通道與CPU相連,每個通道的單向帶寬約為4GB/s(雙向約8GB/s),總理論傳輸帶寬可達63GB/s。這一設計確保了CPU能夠高效地將程序指令發送到GPU,并為GPU提供訪問計算機主存儲器的快速通道。

GPU 內部結構

在對 GPU 的基本架構有所了解之后,然后深入到 GPU 的運算核心中一探究竟。如果籠統而言,GPU 的運算核心包含:運算、緩存和控制。不過設計到的組件和單元較多,需要通過下圖來了解。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

我們可以清晰地看到 NVIDIA GH100 芯片的層級架構,從頂層的 GPC 到下層的 TPC、SM,再到具體的運算核心(CUDA Core、Tensor Core、RT Core)和緩存(L2 Cache)的分布與功能。

從圖片整體而言,描述了 GPU 的運算單元與其他組件的協同情況。圖的上方通過 PCI-E5.0 的接口與 CPU 溝通,左右兩側與 HBM 顯存進行數據交換,下方利用英偉達的 NVLinke 接口技術與其他 GPU 顯卡進行溝通。

接下來,讓我們把目光放到這張圖的中間部分:

GPC(Graphics Processing Cluster,圖形處理集群)

它用綠色的區域表示,在 H100 GPU 中有 8 個 GPC。它負責管理和協調多個下級計算單元(如 TPC、SM)。每個 GPC 包含 9 個 TPC。每 4 個 GPC 共享 30MB L2 緩存,整顆芯片總計 60MB L2 Cache。

它用來分配計算任務,將圖形渲染或計算任務分發到下屬 TPC/SM。同時避免不同任務間的資源爭用(如光線追蹤與 AI 計算)。

TPC(Texture Processing Cluster,紋理處理集群)

它是 GPC 的子模塊,傳統上專注于紋理處理(圖形渲染),但在現代 GPU 中已擴展為通用計算單元。每個 GPC 包含 9 個 TPC,整顆芯片共 72 個 TPC。每個 TPC 包含 2 個 SM,整顆芯片總計 144 個 SM。它用來做紋理映射,例如:加速游戲/圖形中的紋理采樣(雖命名保留“紋理”,實際功能已泛化)。負責與 SM 協作處理通用計算(如 CUDA 核心的并行任務)。

SM(Streaming Multiprocessor,流式多處理器)

它是 NVIDIA GPU 的最小計算單元,位于 GPC 內部,H100 的 TPC 中包含了 2 個 SM 單元,SM 直接執行 CUDA 核心、Tensor Core 等運算任務。換句話說它就是運算的主力軍。每個 SM 包含:128 個 CUDA Core(FP32/INT32 運算)。4 個 Tensor Core(FP8/FP16/TF32 加速 AI)。1 個 RT Core(光線追蹤加速)。整顆芯片總計 144 個 SM→總計 18,432 個 CUDA Core(144 × 128)。

L2 Cache(二級緩存)

它位于整個運算核心的中間,是全局共享的高速緩存,用于減少訪問顯存(HBM)的延遲。我們可以看到 H100 擁有 60MB L2 Cache(8 GPC ÷ 4 × 30MB)。采用 非均勻分配(NUMA):每 4 個 GPC 共享 30MB,優化數據局部性。這起到了數據復用的效果,頻繁訪問的數據(如 AI 模型參數)緩存在 L2,降低 HBM 訪問功耗。還會肩負協調多個 GPC 間數據同步的責任。

SM 流式多處理器

通過前面對 GPU 內部結構的介紹,我們發現在GPU的層級架構中,SM(Streaming Multiprocessor) 是執行實際計算任務的核心單元。每個SM如同一個高度并行的微型計算集群,負責管理數百個并發線程的計算資源調度。當GPU接收來自CPU的指令后,任務會被拆解成線程塊(Thread Block)分配到各個SM上執行。這種設計使數萬個線程能高效協同,尤其適合處理圖形渲染與AI計算中的海量并行任務。

SM 內部組成結構

接下來,通過下圖對 SM 的內部結構進行了解。

每個SM被劃分為4個對稱的象限(Quadrant),形成高度復用的計算單元集群:

  • 計算資源分層部署:每個象限配備 1個第四代Tensor Core(專精矩陣運算,如FP16矩陣乘法提速10倍)和 32個FP32 CUDA Core(處理標量計算與邏輯控制)。二者互補協作——Tensor Core像“矩陣流水線”高效處理大塊數據,CUDA Core則如“精密工具組”執行激活函數、數據轉換等細粒度操作。?
  • 執行單元全域覆蓋:INT32單元(地址計算)與FP64單元(科學計算)分布其間,確保整數/雙精度需求無縫銜接。特殊函數單元(SFU)獨立處理超越函數(如SIN/COS),釋放主計算管線壓力。?
  • 存儲系統緊耦合:每象限獨占 1KB寄存器文件(線程私有,1-2周期延遲),構成最速數據通道;共享的 L0指令緩存實時輸送指令流,避免計算單元“饑餓”。全局 L1緩存(256KB/SM)作為數據中轉站,減少高延遲內存訪問。?
  • 動態調度中樞:Warp調度器(每SM配4個)持續監控32線程束狀態,將矩陣運算分派至Tensor Core,標量指令路由到CUDA Core,實現零空閑的流水線作業。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

從上圖得知,每個SM采用四象限(Quadrant)架構,這里我們將象限中的組件列了一個清單方便查看:

組件類型

數量/象限

功能說明

關鍵技術特性

Tensor Core

1個

加速矩陣運算(GEMM)

第四代架構,支持FP8/FP16/TF32

FP32 CUDA Core

32個

單精度浮點運算(激活函數等)

傳統標量計算核心

INT32單元

16 個

整數運算與地址計算

獨立于FP32單元

FP64單元

16 個

雙精度科學計算

面向HPC場景

寄存器文件

1KB

線程私有存儲(速度最快)

延遲1-2周期

L0指令緩存

1 個

減少指令獲取延遲

服務象限內所有核心

LD/ST

8 個

加載參數訓練集


SFU

1 個

保存特殊函數


Warp Scheduler

1 個

運算線程調度器


Dispatch Unit

1 個

發送指令


SM內部工作機制

在了解了 SM 的組成結構之后, 再來看看它是如何工作。 SM通過三級流水線機制實現組件高效協作,以執行一條典型指令為例:

階段1:指令調度

  • Warp Scheduler監控32線程組成的Warp狀態,選擇就緒的Warp。?
  • Dispatch Unit解析指令類型,分配至對應硬件單元:

A.FP32/INT32運算→CUDA Core

B.矩陣乘法 (GEMM)→Tensor Core

C.超越函數 (e.g. SIN)→SFU(特殊函數單元)

D.數據搬運→LD/ST(加載/存儲單元)

階段2:數據供給

  • 寄存器文件提供線程級瞬時數據(如矩陣計算中的中間值)?
  • L1 Cache緩存共享數據(若寄存器溢出則暫存至此處,延遲20-30周期)?
  • TMA(Tensor Memory Accelerator)優化矩陣分塊訪問(自動處理子矩陣內存布局)

階段3:并行執行

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

假設上圖完成 Transform 模型架構的運算,大致工作流程如下:

  • Tensor Core率先處理核心矩陣運算:接收16×16矩陣塊(如QK<sup>T</sup>),執行FP16/FP8混合精度GEMM,提供10倍于標量單元的吞吐量。?
  • FP32 CUDA Core承接后續計算:處理非矩陣操作,包括Softmax歸一化、激活函數(GELU/ReLU)等標量密集型任務。?
  • SFU加速特殊函數:專精超越函數計算(如Softmax中的指數運算),降低主計算管線延遲。?
  • 分級存儲體系保障數據供給:結果優先寫回寄存器(1-2周期延遲)或L1緩存(20-30周期),最終由L2緩存(60MB)協調寫入HBM顯存(3.35TB/s帶寬)。

GPU 的緩存機制

通過對 SM 的內部組成和工作原理的介紹,讓我們對 GPU 的運算有了更加深刻的了解,不過在探究 GPU 內部的過程中發現遇到了很多的“緩存”。這里我們以英偉達 H100 顯卡為例,對其緩存按照五級分層給大家做詳細介紹。

這五級分層分別是:頂層的寄存器文件(1周期延遲/1KB線程)與L0指令緩存如同貼身工作臺,專精服務線程的即時計算與指令吞吐;中層的L1緩存(256KB/SM)與L2緩存(60MB/GPU)扮演共享樞紐,以容量換帶寬,高效緩存高頻數據塊(如Attention矩陣切片);底層的HBM3顯存(80GB/3.35TB/s)則如中央倉庫,承載全量模型參數。這套機制通過動態路由策略——將98%的“熱數據”鎖定在高速緩存,僅5%的“冷數據”下沉至顯存——使H100的Tensor Core利用率突破98%,同時將AI訓練的吞吐量推升6倍。

GPU 緩存分層

如下圖所示,我們將 GPU (以英偉達 H100 為例)緩存分成五個層次。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

針對這五個層級,按照功能和服務的對象將其分為頂層、中層和底層,如下:

頂層:專注運算命令的極速通道(服務線程即時需求)

組件

速度優勢

容量限制

高頻場景示例

寄存器文件

1周期延遲(硬件極限)

1KB/線程

矩陣乘法中間累加值

L0指令緩存

2-5周期取指(0空轉)

4KB/象限

Tensor Core的HMMA指令預取


中層:專注數據緩存的均衡通道(服務SM協作需求)


組件

速度-容量平衡點

核心功能

實戰價值

L1數據緩存

256KB/SM(20-30周期)

緩存Attention頭的K/V塊

使QK^T計算減少76% HBM訪問

L2 數據緩存

60MB/GPU(100-200周期)

聚合多SM的梯度數據

AllReduce通信延遲降低40%

底層:專注參數模型的海量通道(服務全局存儲需求)

組件

容量王者

速度代價

不可替代性

HBM3顯存

80GB(存儲全量參數)

300+周期

承載百億參數大模型

GPU 緩存策略

1. 熱度感知緩存

基于訪問頻率動態調整數據層級, L2緩存通過內置的訪問計數器自動識別熱點數據,例如Transformer的Embedding表。當某個數據塊被連續訪問超過三次時,其緩存優先級會被提升,可能被保留在L2緩存的Bank0高速區。此外,在多個SM共享相同權重的情況下,例如在AllReduce期間,L2緩存會采用單副本緩存策略,以優化資源使用。

2. 寄存器壓力釋放

通過編譯器驅動數據生命周期管理。通過路由邏輯實現高效的資源分配和性能優化。在實施機制方面,寄存器分配算法優先保留循環計數器、矩陣累加器等關鍵變量,確保核心計算任務的高效執行。當寄存器不足,例如線程使用超過1KB時,系統會自動將中間變量暫存至L1緩存,以避免性能瓶頸。

此外,針對長生命周期變量,如優化器狀態等,系統采用動態降級策略,直接路由至L2或HBM,進一步優化內存使用效率。在性能防護方面,編譯器引入了寄存器溢出警告機制,當寄存器溢出時會觸發性能懸崖警告(通過NVCC編譯選項--ptxas-warnings實現),提醒開發者關注潛在性能問題。同時,Hopper架構新增寄存器文件壓縮技術,使寄存器的有效容量提升40%,從而在有限的硬件資源下實現更高的計算效率。

3. 顯存預取流水線

路由邏輯主要關注計算與數據搬運的時空重疊,通過三級預取流水線和TMA加速器來優化數據傳輸與計算的并行性。在實施機制方面,三級預取流水線分為三個層級:Tier1階段,Tensor Core啟動時,DMA預取相鄰數據至L2緩存;Tier2階段,L2到L1的數據搬運與標量函數單元(SFU)的計算任務并行執行;Tier3階段,寄存器加載與矩陣乘法操作實現重疊執行。

此外,TMA(張量內存加速器)通過張量坐標的直接定位,能夠快速訪問HBM中的數據塊,從而減少地址計算的開銷。在帶寬優化方面,系統將細碎的數據傳輸請求合并為128字節的大塊傳輸,這使得HBM3的效率提升了4倍;同時,當Tensor Core正在處理一個16×16的矩陣時,DMA已經預取了下一個64×64的數據塊,進一步提升了數據傳輸的效率和計算的連續性。

緩存路由策略全景圖

這里我們將路由策略做一個總結,通過下面矩陣表格的方式展示。

數據特性

路由目標

策略實現

硬件支持

指令流

→ L0緩存

分支預測預取下4條指令

PC-Relative Addressing

線程私有中間結果

→ 寄存器

編譯器寄存器分配算法

寄存器文件壓縮

高頻共享數據

→ L1緩存

LRU替換策略+硬件預取

256KB SRAM陣列

跨SM共享權重

→ L2緩存

訪問計數晉升機制

60MB全域緩存

歷史參數/冷數據

→ HBM

DMA異步搬運+緩存逐出

HBM3 3.35TB/s帶寬

TMA 加速原理

前面我們花費了很多的篇幅在講解 GPU 的構成和工作方式,并且在 GPU 的運算單元上停留了很長時間。我們知道,在大模型訓練和高性能計算任務中,GPU 的計算效率并不僅僅取決于 Tensor Core 的運算能力,還極大依賴于數據搬運是否高效。而傳統架構中,計算線程必須親自負責內存地址生成與數據傳輸任務,這使得原本用于數學運算的資源被“數據搬運”占用,效率無法最大化。

為了解決這個問題,NVIDIA 在 Hopper 架構的 H100 中引入了 TMA(Tensor Memory Accelerator)單元,徹底改變了數據在 GPU 內部的傳輸機制。

為了把 TMA 這種重要的概念搞清楚,通過下圖給大家做詳細講解,先看圖的左邊。

在 A100 中,數據從顯存搬運到 SM(流式多處理器)內部緩存的全過程,依賴指令線程來完成。

當計算需要數據時,線程首先要手動生成內存地址,再通過 LDGSTS 指令從顯存讀取數據。這意味著線程不僅要負責發起讀寫操作,還要等待數據搬運完成。在這個過程中,線程無法繼續進行其他計算任務,Tensor Core 的計算資源也被閑置下來。

換句話說,在 A100 架構中,“線程+數據線程”是合并在一起的,既要思考如何計算,也要親自去“搬磚”。尤其在大模型訓練這種需要頻繁搬運大塊數據的任務中,這種緊耦合的模式會嚴重限制整體吞吐率。

算力引擎的內核:GPU 架構深度解析與 H100 技術密碼?-AI.x社區

既然 A100 的設計限制了整體吞吐量,那么我們看看圖的右邊 H100 在加入了 TMA 有何改觀。H100 的最大變化在于新增了一個名為 TMA 的硬件單元,專門負責地址生成和數據搬運。現在,線程只需告訴 TMA 自己需要哪一塊數據、數據的尺寸和布局等信息,TMA 就能自動生成地址,直接將數據從 GPU 顯存搬運到共享內存或一級緩存中。

圖中可以看到,H100 的指令線程與數據線程已經分離,原本由線程執行的數據搬運操作完全交由 TMA 處理。線程和 Tensor Core 因此可以繼續執行數學運算,不再被等待或阻塞。

這種架構上的優化,使得 SM 內部的資源調度更加高效,計算與數據訪問可以并行進行,尤其對 AI 和 HPC 等任務密集型場景,帶來顯著的性能提升。

TMA 的出現最大程度上利用了緩存的時間局部性和空間局部性原則,將頻繁使用的數據及時搬入共享內存,讓計算單元可以高速、低延遲地訪問數據。

在 GPU 這樣數以千計線程并行執行的環境中,避免線程在 I/O 上的等待成為提升效率的關鍵。而 TMA 的加入,則是在這一關鍵點上,邁出的決定性一步。

補充說明:什么是時間局部性和空間局部性?

GPU(以及 CPU)之所以設置緩存,是為了避免頻繁訪問速度較慢的顯存或主存,而緩存的命中效率依賴于“數據局部性”原則。

時間局部性指的是:剛剛訪問過的數據,很快可能會再次被訪問。比如你正在做一段矩陣計算,某個數據塊多次參與乘法,就體現了時間局部性。

空間局部性則是指:如果某個地址的數據被訪問,那么它附近的數據也很可能在接下來被訪問。比如讀取一個數組時,往往會按序讀取多個相鄰元素,這就屬于空間局部性。

TMA 支持批量搬運連續的數據塊,正好契合這兩個局部性原則。它能預判和預取有可能用到的數據,減少線程頻繁請求顯存的次數,讓共享內存和一級緩存的命中率大大提高,進而提升整體計算效率。

總結

本文系統剖析了 GPU 的架構設計與工作機制,核心揭示了其作為并行計算引擎的獨特優勢。通過對比 CPU 與 GPU 的架構差異(運算單元占比、并行能力側重),闡明二者協同工作的高效模式。以 H100 為實例,層層拆解其層級化結構:GPC 的任務分配、TPC 的功能擴展、SM 的并行計算核心,尤其是 SM 內部 Tensor Core 與 CUDA Core 的分工協作,構成了高效處理 AI 與圖形任務的基礎。

五級緩存機制通過動態調度熱數據,平衡了速度與容量;TMA 技術則通過分離指令與數據線程,突破了數據搬運的效率瓶頸。這些設計共同支撐了 H100 的高性能表現,使其成為 AI 訓練、高性能計算的核心硬件,也為理解現代 GPU 的技術演進與應用價值提供了清晰框架。

作者介紹

崔皓,51CTO社區編輯,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-7-30 07:38:53修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品一区三区 | 欧美日韩激情 | 午夜伦理福利 | 日韩免费一区二区 | 天天干天天操天天爽 | 久久中文视频 | 色77777 | 日韩精品一区二区视频 | 国产理论视频 | 国产一区二区三区久久 | 中文字幕综合 | 天天干天天干天天 | 亚洲精品久久久 | 国产精品久久一区二区三区 | 人人插人人射 | 中文在线字幕观看 | 午夜国产在线观看 | 毛片在线免费 | 日日操夜夜爽 | www.44| 艳妇臀荡乳欲伦交换h漫 | 91午夜精品亚洲一区二区三区 | 一二区视频 | 伊人精品久久 | 糖心vlog精品一区二区 | 国产又黄又猛 | 亚洲精品美女 | 亚洲精品自拍视频 | 日本不卡视频在线观看 | 在线观看亚洲精品 | 最近日本中文字幕 | 亚洲aaaaaa | 日韩一区二区三区av | www.久久.com| 中国av片 | 欧美一级黄色片 | 色综合久久天天综合网 | 精品国产乱码一区二区三 | 欧美日韩精品一区二区三区 | 日韩福利视频 | 亚洲91精品 |