中國團隊首次奪魁！無問芯穹FlightVGM獲FPGA'25最佳論文，峰值算力超GPU21倍

作者：機器之心 2025-03-03 12:16:48

在大模型部署成本爭議甚囂塵上的產業背景下，以 FPGA、ASIC 等靈活可編程硬件和專用任務集成電路來提升硬件運行效率，或將成為大模型落地效率提升與成本降低的最關鍵一環。

國際可重構計算領域頂級會議 ——FPGA 2025 在落幕之時傳來消息，今年的最佳論文頒發給了無問芯穹和上交、清華共同提出的視頻生成大模型推理 IP 工作 FlightVGM，這是 FPGA 會議首次將該獎項授予完全由中國大陸科研團隊主導的研究工作，同時也是亞太國家團隊首次獲此殊榮。

這項工作首次在 FPGA 上實現了視頻生成模型（Video Generation Models, VGMs）的高效推理，也是該團隊繼去年在 FPGA 上加速大語言模型 FlightLLM（FPGA’24）后的最新系列工作。與 NVIDIA 3090 GPU 相比，FlightVGM 在 AMD V80 FPGA 上實現了 1.30 倍的性能提升與 4.49 倍的能效提升（峰值算力差距超過 21 倍）。

論文鏈接：https://dl.acm.org/doi/10.1145/3706628.3708864

論文第一作者劉軍是上海交通大學博士生，共同一作曾書霖是清華大學博士后，通訊作者是汪玉和戴國浩。汪玉是 IEEE Fellow、清華大學電子工程系教授、系主任和無問芯穹發起人，戴國浩是上海交通大學副教授、無問芯穹聯合創始人兼首席科學家。

上一輪清華電子系相關工作被 FPGA 國際會議收錄應追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 與 2017 年 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。前者催化了深鑒科技的創立，后者被 FPGA 國際會議評為當年唯一的最佳論文，隨后深鑒科技于 2018 年被可編程芯片廠商賽靈思以 3 億美元收購。

在大模型部署成本爭議甚囂塵上的產業背景下，以 FPGA、ASIC 等靈活可編程硬件和專用任務集成電路來提升硬件運行效率，或將成為大模型落地效率提升與成本降低的最關鍵一環。2024 年，無問芯穹曾以大語言模型定制推理 IP FlightLLM 被 FPGA 高評價錄取，今年再次以 VGM 模型定制推理 IP FlightVGM 拿下最佳論文獎，都是在通過創新硬件架構提升效率。據悉，這一系列研究成果現已被集成到無問芯穹自研大模型推理 IP LPU（Large-model Processing Unit）之中，并已與合作伙伴開展合作驗證。

下面是論文的核心內容解讀。

背景

在視頻生成領域，擴散 Transformer（DiT）逐漸成為一種重要的框架。DiT 模型通過一個擴散過程生成視頻，它將噪聲圖像逐步恢復為清晰的視頻幀，從而展現了強大的生成能力。最初，DiT 被提出是為了探索在大規模數據處理中的可擴展性，隨著技術的不斷發展，DiT 的架構也不斷被優化，逐步提高了生成視頻的質量和分辨率，使得生成的視頻更加清晰、精細。盡管如此，這種方法的計算需求非常高，尤其是在生成高分辨率和較長時長的視頻時，所需的計算量和內存消耗大幅增加，因此如何提升生成效率并優化計算過程，成為該領域的關鍵問題之一。

核心見解：從視頻壓縮到視頻生成

視頻壓縮技術（如 H.264、H.265）通過離散余弦變換（DCT）等技術，識別并消除視頻幀間和幀內的冗余信息，從而實現高達 1000 倍的壓縮率。這一思想的核心在于，視頻數據在時間和空間維度上存在大量重復模式，例如相鄰幀之間的背景幾乎不變，或同一幀內的紋理具有高度相似性。通過檢測并跳過這些冗余信息，壓縮算法能夠顯著減少數據量，同時保持視頻質量。

FlightVGM 創新性地將這一思想引入視頻生成模型的加速中。視頻生成模型（VGMs）在推理過程中同樣表現出顯著的時空冗余性。例如，相鄰幀之間的 Token 在語義上高度相似，而同一幀內的不同區域也可能共享相同的視覺特征。然而，現有 GPU 架構無法充分利用這種冗余性。FPGA 雖然具備稀疏計算的優勢，但其峰值算力遠低于 GPU，且其計算單元（例如 V80 的 DSP58）的傳統設計無法動態適配混合精度需求，限制了其在視頻生成加速中的應用。FlightVGM 通過以下三項技術，解決上述挑戰：

1.“時間 - 空間” 激活值在線稀疏化方法：基于視頻壓縮中的相似性檢測思想，FlightVGM 設計了幀間和幀內的冗余激活稀疏機制。通過余弦相似度計算，動態跳過相似部分計算，顯著降低了計算負載。

2.“浮點 - 定點” 混合精度 DSP58 拓展架構：借鑒視頻壓縮中的分塊處理思想，FlightVGM 對視頻生成模型的不同模塊進行精度分層處理。關鍵模塊（如注意力機制）保留 FP16 精度，非關鍵模塊（如線性層）量化至 INT8，最大化硬件利用率。

3.“動態 - 靜態” 自適應調度策略：針對激活值在線稀疏化導致的負載不均衡問題，FlightVGM 針對實際工作負載自適應調整不同操作負載的執行順序，從而提高計算利用率。

技術要點

“時間 - 空間” 激活值在線稀疏方法

我們提出了一種 “時間 - 空間” 激活值在線稀疏化方法，同時考慮了幀間和幀內的相似性。激活稀疏化的核心思想是：如果兩個 token 之間具有高度相似性，則可以只計算其中一個 token，并將結果共享給另一個 token。具體來說，輸入激活是一個 3 維張量，由 tokenizer 從噪聲視頻中處理得到。因此，輸入激活可以表示為，其中 F 表示幀數，T 表示每幀的 token 數，d 表示隱藏維度。為了簡便起見，我們用 () 來表示第 1 幀的第 1 個 token。對于輸入激活，我們使用和來表示參考向量和輸入向量。我們使用余弦相似度作為度量標準。

激活稀疏化包含兩個步驟：幀間稀疏化和幀內稀疏化。

1. 幀間稀疏化：我們將輸入激活分為 G 個連續的組，并選擇中間幀作為參考幀。剩余幀的 token 與參考幀的 token 逐一計算相似度，若超過閾值，則使用參考幀的 token 計算結果替代當前 token。

2. 幀內稀疏化：我們將每幀的 token 分為 K 個塊，選擇中間 token 作為參考 token，計算其他 token 與參考 token 的相似度，若超過閾值則用參考 token 替代計算。如果某 token 已在幀間稀疏化中被裁剪，其相似度為 0。

從計算角度來看，相似度計算需要進行一次內積和兩次模長計算，因此其計算量為 3d，其中 d 為隱藏維度。以一個線性操作為例，假設輸入激活的大小為，權重矩陣 W 的大小為，則原始操作的計算量為。對于稀疏操作，考慮幀間和幀內稀疏化帶來的額外計算，假設稀疏度為 s，則稀疏操作的總計算量為：

由于原始計算量包含了 d 的二次項，而稀疏化帶來的額外計算只是 d 的線性項（典型值 d=1152），因此稀疏化引入的額外開銷幾乎可以忽略不計。

“浮點 - 定點” 混合精度 DSP58 拓展架構

AMD V80 FPGA 配備了硬件 IP DSP58，支持多種計算模式，如標量、向量和浮點配置。然而，由于這些配置之間無法在運行時進行動態切換，這與視頻生成模型對數據的混合精度的需求存在沖突，導致我們無法充分利用 DSP58 的計算潛力。

為了解決這一問題，我們提出了基于 DSP58 的創新性 FP16-INT8 混合精度硬件架構 ——DSP-Expansion (DSP-E)。該架構允許在運行時配置，支持兩個 FP16 乘加單元（MAC）或四個 INT8 乘加單元。我們的核心思路是通過引入額外的乘法器來解決當一個 DSP58 執行兩個 FP16 分數乘法時的數據混淆問題，這些乘法器在 INT8 模式下也可以復用。在 FP16 模式下，DSP58 執行兩個 MAC 的分數乘法，并通過減去 INT8 乘法器的結果來獲得正確的中間計算結果。中間結果的指數部分通過 INT 加法器計算，并通過指數對齊和調整單元對齊小數點位置，最終通過加法、歸一化和四舍五入得到最終結果。在 INT8 模式下，DSP-E 通過復用 DSP58、兩個 INT8 乘法器和兩個 INT 加法器，最大化計算性能。通過將相關數據輸入到不同的端口，額外的邏輯單元可以復用硬件資源，從而有效地提高了計算吞吐量。

為了在計算精度和硬件資源的約束下實現最大吞吐量，我們提出了一個異構的 DSP58 陣列設計，以適應不同的計算需求。我們根據不同設計的資源消耗（包括 DSP、LUT、REG、RAM 等）進行評估，并通過資源約束來確保最優計算性能。此外，我們還考慮了 INT8 與 FP16 計算性能的比值，以衡量計算能力的提升。

實驗結果

算法評估

與基準模型相比，FlightVGM 對于模型精度的影響幾乎可以忽略（僅平均損失為 0.008），而使用全 INT8 量化時，平均損失為 0.042。同時，在實際視頻生成效果上，FlightVGM 生成的視頻與原始模型仍有較好的保持。

性能評估

對于 NVIDIA 3090 GPU，在 FP16 精度下，AMD V80 FPGA 的峰值算力差距超過了 21 倍。然而，基于 V80 FPGA 實現的 FlightVGM 仍在性能和能效上超過了 GPU。這是因為 FlightVGM 充分利用了 VGM 固有的稀疏相似性和混合精度數據分布特性，并通過軟硬件協同開辟了 “算法 - 軟件 - 硬件” 的全新優化空間并成功在其中找到了一個足夠好的解。而 GPU 由于硬件架構的限制，難以達到相同的加速效果，且缺乏稀疏化和定制化計算數據流優化的支持。

展望和未來工作

隨著 VGM 計算需求的增長，FlightVGM 展示了如何通過 FPGA 的軟硬件協同創新，實現更高能效的文生視頻大模型推理。未來，通過探索 AIE（AI Engine）+ HBM（High Bandwidth Memory）的全新 FPGA 架構，FPGA 有望為視頻生成任務提供更高效的計算支持，成為未來計算平臺的重要選擇。

責任編輯：張燕妮來源：機器之心

大模型編程 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

中國團隊首次奪魁！無問芯穹FlightVGM獲FPGA'25最佳論文，峰值算力超GPU21倍

背景

核心見解：從視頻壓縮到視頻生成

技術要點

實驗結果

展望和未來工作