成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI 應用性能優化全景圖 原創

發布于 2025-5-15 06:32
瀏覽
0收藏

AI 應用基于大模型的推理完成業務執行,由于大模型計算資源消耗大且需要在 AI 應用用客戶端進行內容的實時生成,性能優化變得尤為關鍵。

AI 應用推理效率提升不僅涉及底層硬件的優化,還包括大模型層面以及各類軟件中間件的協同工作。因此,全面理解大模型的技術架構對于評估和選擇推理性能優化策略至關重要。

AI 應用性能優化全景圖-AI.x社區

下面對這9個層性能優化詳細剖析之。

1、硬件芯片層

芯片層構成了計算系統的硬件基礎,主要負責執行基礎的算術和邏輯運算,其架構設計直接關系到計算密度、能效比以及并行處理能力。在國際市場上,NVIDIA 和 AMD 等公司是知名的 GPU 生產商,而 Groq 等企業專注于針對 AI 推理任務的芯片性能優化。在中國,有阿里巴巴旗下的平頭哥半導體、華為的 AScend 系列、寒武紀科技,以及眾多創新型企業,比如:摩爾線程、燧原科技、沐曦集成電路、壁仞科技等,它們都在積極開發相關技術。

2、編程語言和芯片開發包層

硬件編程的抽象層提供了接口,用以實現資源的高效分配和指令的有效映射,旨在平衡編程的便捷性和計算的高效率。比如:NVIDIA 的 CUDA、AMD 的 ROCm、平頭哥半導體的 HGAI、華為的 Ascend C、寒武紀的 BangC、摩爾線程的 MUSA、燧原科技的 Tops Riser、沐曦集成的 MXMACA 以及壁仞科技的 SUPA 等平臺,不僅提供針對硬件優化的編程語言,還配套提供了一系列開發者工具,比如:庫、工具包和文檔等。

在這些平臺中,NVIDIA 的 CUDA 技術生態占據了主導地位,對開發者來說,轉向其他編程語言可能會面臨較高的轉換成本。

3、大模型推理加速層

為了在推理階段提高計算效率和資源利用率,行業采取了編譯優化、量化處理和批處理等技術手段來減少延遲和成本。這一領域的參與者包括眾多芯片制造商、云服務提供商、軟件公司、模型開發社區以及科研機構,它們提供開源解決方案和商業服務,后端集成大型模型,并通過API提供調用服務。

推理加速的核心在于如何以最少的資源實現最高的性能,這就像是“顯存管理”與“算力優化”的較量,能夠更高效利用資源的方案將勝出。目前業內的主要方案包括:

  • vLLM(Vectorized Large Language Model Inference):由加州大學伯克利分校的研究團隊開發的開源大語言模型推理和服務框架,采用 PagedAttention 技術有效減少內存碎片,提高內存利用率,支持多種大語言模型,比如:通義、LLaMA 等,與 Hugging Face 生態系統集成良好,能夠直接加載 HF 上的模型權重。
  • TensorRT-LLM:NVIDIA 基于 TensorRT 優化的 LLM 開源推理庫,深度集成 NVIDIA GPU 硬件特性,比如:Tensor Core,可與 NVIDIA 其他工具和庫(比如:CUDA、cuBLAS 等)無縫配合,還可以與 Triton 框架結合,以提升服務在 NVIDIA GPU 上的推理效率。
  • ONNX Runtime:微軟開發并維護的輕量級、跨平臺的高性能推理引擎,旨在打破不同深度學習框架之間的壁壘,使得模型可以在多種環境中高效運行,提高模型的可移植性和部署效率。
  • TGI(Text Generation Inference):由 Hugging Face 團隊開發,緊密集成 Hugging Face 的 Transformer 庫,可輕松加載和使用 Hugging Face 上的眾多模型;支持分布式推理,可在多 GPU 環境下擴展服務能力。
  • Deepytorch Inference:阿里云 GPU 云服務器自研的 AI 推理加速器,專注于為 Torch 模型提供高性能的推理加速。通過對模型的計算圖進行切割、執行層融合以及高性能 OP 的實現,大幅度提升 PyTorch 的推理性能。
  • BladeLLM:阿里云人工智能平臺 PAI 自研的為大語言模型優化的推理引擎,在模型計算、生成引擎、服務框架、應用場景層均作了提升,性能優于主流開源框架。
  • SiliconLLM:硅基流動科技推出的專注于大模型推理加速的框架,自主研發了高效的算子和調度策略,支持多種硬件平臺,可與多種深度學習框架協同工作。
  • TurboMind:上海人工智能實驗室開源,專為 LLaMA 系列大語言模型設計的推理加速引擎,支持動態批處理、持續批處理(Continuous Batching)技術。

4、大模型層

國外一些主要的大語言模型(LLM)方案包括:OpenAI 的 GPT 系列、Google 的 Gemini、Meta 的 LLaMA、Anthropic 的 Claude、Mistral AI 以及 X 公司的 Grok。特別值得注意的是,Meta 的 LLaMA 和 Mistral AI 已經將它們模型的核心能力進行了開源。其他大型模型也通過發布技術報告或部分開源其能力,為社區做出了貢獻。

國內主流的大語言模型方案有:阿里云的 Qwen、DeepSeek、百度的文心一言、字節跳動的豆包、騰訊云的混元、科大訊飛的星火以及月之暗面科的 Kimi 等。其中,Qwen 和 DeepSeek 已經開源了它們模型的核心能力,其他模型也通過發布技術報告或部分開源其能力,積極回饋社區。

開源的大語言模型(LLM)不再僅僅是閉源模型的跟隨者,而是開始引領 AI 的發展方向。DeepSeek、Qwen 和 LLaMA 是目前在開源領域處于領先地位的項目。

5、通用深度學習框架層

提供一整套基礎工具和功能,這些工具和功能極大地簡化了大模型的開發、訓練和部署過程。訓練的效果很大程度上取決于所使用的工具,其中 PyTorch 和 TensorFlow 是兩個最受歡迎的“頂級教練”。以下是一些主流的框架:

  • PyTorch:由 Facebook AI Research 開發和維護。它使用動態計算圖技術,允許在執行過程中動態地調整計算流程,與 Python 深度集成,提供直觀的 API 接口和靈活的編程體驗。PyTorch 特別適合快速原型開發、研究和實驗,尤其是在需要頻繁修改和迭代模型的場景中。
  • TensorFlow:由谷歌基于 DistBelief 研發的第二代人工智能學習系統,支持 Python、JavaScript、C++ 和 Java 等多種編程語言。它廣泛應用于語音識別、圖像識別等機器學習和深度學習領域,支持 CNN、RNN 和 LSTM 等算法。
  • JAX:由谷歌開發,旨在為科研人員提供一個既能方便進行算法實驗,又能充分利用硬件資源加速計算的工具,尤其在需要進行自動求導和并行計算的場景中表現出色。
  • MindSpore:由華為開源,是一種適用于端邊云場景的新型開源深度學習訓練/推理框架,為 Ascend AI 處理器提供原生支持,以及軟硬件協同優化。
  • PaddlePaddle:由百度開源,支持多種深度學習模型的高效訓練,能在多 GPU 和多節點環境下分布式訓練,優化計算資源使用效率。
  • MXNet:由 Carlos Guestrin 在華盛頓大學共同開發,是亞馬遜云計算服務的首選深度學習框架,支持 C++、Python、Java、Julia、MATLAB、JavaScript、Go、R、Scala 等多種編程語言。
  • Caffe:由伯克利人工智能研究小組和伯克利視覺和學習中心開發,內核用 C++ 編寫,有 Python 和 Matlab 相關接口。以模塊化原則設計,實現了對新的數據格式、網絡層和損失函數的輕松擴展。

6、計算平臺層

在計算平臺層面,由于對 GPU 計算資源的依賴,國內市場主要由公共云服務提供商占據主導地位,比如:阿里云的 AI 計算平臺 PAI、百煉、提供無服務器 GPU 計算能力的函數計算 FC、容器計算服務 ACS 以及 GPU 服務器等。而在國際市場上,由于不受美國出口管制政策的限制,加之大模型技術生態系統更加成熟,供應商的種類和數量更為豐富。除了公共云服務提供商所提供的計算能力外,芯片制造商和軟件開發商也紛紛進入市場,提供推理計算服務,比如:Groq、together.io、Fireworks.ai 等公司。

AI 應用性能優化全景圖-AI.x社區

隨著國內自主研發的 GPU 和 AI 芯片性能的不斷提升,預計國內供應商將逐漸增多,他們將提供更多樣化的推理計算服務,進一步豐富和完善大型模型的產品供應鏈。

7、應用編排層

大模型的應用編排層是實現大模型在產業中落地的關鍵中間層,它充當著連接大模型能力和業務場景的“橋梁”,主要用于整合模型、工具、數據和服務,實現復雜 AI 任務的自動化流程構建與執行,從而提升生成效果。

LangChain:這是一個由 Harrison Chase 在2022年創建的開源項目,通過 Chain(鏈)、Agent(代理)、Memory(記憶)三大組件,可以像搭建樂高積木一樣組合工具鏈,支持包括 OpenAI 在內的30多個模型 API,集成了 Wikipedia、Wolfram Alpha等200多個外部服務,并內置了 Chroma/Pinecone 等向量數據庫接口,實現知識庫的實時檢索增強。

LlamaIndex:專注于數據處理和索引構建,適用于需要對大量數據進行有效管理和利用的場景,特別是當你希望 LLM 能夠基于特定領域的知識進行回答時。

以上兩個開源項目特別適合 Python 開發者使用。

Spring AI Alibaba:這是專為 Spring 和 Java 開發者設計的智能體開發框架,對 AI 智能體應用的通用開發范式進行了很好的抽象,從原子能力層次,比如:對話模型接入、提示詞模板到函數調用,再到高層次抽象,比如:智能體編排、對話記憶,并與國內大模型進行了深度適配,還提供了應用從部署到運維的最佳實踐,包括網關、配置管理、部署、可觀測等。

以上三個開源項目都是代碼級編程框架,具有很高的自由度。

Dify:這是一個開源的 LLM 應用開發平臺,提供從 Agent 構建到 AI workflow 編排、RAG 檢索、模型管理等能力,可以輕松構建和運營生成式 AI 原生應用。

阿里云百煉:這是一個一站式的大模型開發及應用構建平臺。無論是開發者還是業務人員,都能深入參與大模型應用的設計和構建。無需編寫代碼,通過簡單的界面操作,就可以開發 AI 應用。

此外,還可以使用云原生應用開發平臺 CAP +函數計算 FC,以 Serverless 的方式,調用算力資源和編排 AI 應用。

以上三個是低代碼平臺,使用門檻更低,其中,百煉和云原生應用開發平臺 CAP +函數計算 FC,提供了推理的算力支持。

8、流量管理層

大模型的流量管理層是大模型服務化部署中的關鍵組件,主要負責處理流量、服務、安全和 API 管理,確保大模型服務在高負載情況下仍能保持穩定且響應迅速。過去,國內對大模型的需求主要集中在訓練階段,對流量管理的需求并不強烈。然而,隨著推理需求的快速增長,流量管理正逐漸成為類似 Web 應用架構中不可或缺的一部分。

與 Web 應用不同,大模型應用在流量、服務、安全和 API 管理方面展現出新的特點,并提出了新的需求:

  • 長連接:由于 AI 場景中常見的 Websocket 和 SSE 協議,長連接的比例很高,要求網關在更新配置時對長連接無影響,不影響業務。
  • 高延時:LLM 推理的響應延時比普通應用要高很多,使得 AI 應用容易受到惡意攻擊,容易被構造慢請求進行異步并發攻擊,攻擊者成本低,但服務端開銷高。
  • 大帶寬:結合 LLM 上下文來回傳輸,以及高延時的特性,AI 場景對帶寬的消耗遠超普通應用,網關如果沒有實現較好的流式處理能力和內存回收機制,容易導致內存快速上漲。

針對這些新特點和需求,傳統的 Nginx 網關已經無法應對,因此國內外均出現了大量基于 Envoy 內核的新一代開源網關。

  • Higress:基于 Istio 和 Envoy 內核,并針對生產業務需求進行了增強,可用于部署 Web 類應用和大模型應用。在 AI 領域,已經支撐了通義千問 APP、百煉大模型 API、機器學習 PAI 平臺、FastGPT、中華財險等 AI 業務。
  • Kong AI Gateway:基于 Kong 的插件架構,具有很強的可擴展性。開發者可以根據自己的需求開發自定義插件,以實現特定的功能,比如:自定義的流量控制策略、數據轉換、模型框架的調度等。
  • 阿里云云原生 API 網關:提供大模型相關 API 的全生命周期管理,與阿里云其他云產品集成體驗好,比如:PAI、函數計算等,同時基于 Higress 提供了諸多開源增強能力。

9、業務邏輯實施層

大模型應用的業務邏輯實施層也非常關鍵。這一層需要具備行業專業知識,或具備大模型基礎設施專業知識,他們充分利用開源大模型、開源中間件,并結合各自的技術積累,提供集成、線下部署等多元化服務,是大模型技術和應用生態的重要組成部分。由于相對個性化和業務強定制,供應方也比較多,這里不再一一列舉。

?? 輪到你了:你認為 AI 應用性能優化還有哪些注意點?


本文轉載自??玄姐聊AGI??  作者:玄姐


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-15 06:32:45修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 天天做日日做 | 亚洲国产日本 | 精品久久国产老人久久综合 | 欧美日韩高清在线一区 | www.色午夜.com| 一本一道久久a久久精品蜜桃 | 欧美成人一区二区三区 | 国产精品激情 | 国产成人综合亚洲欧美94在线 | 精品国模一区二区三区欧美 | 日韩欧美在线视频 | 久久精品中文字幕 | 亚洲欧美在线观看 | 天天综合久久 | 国产免费黄网 | 国产精品视频入口 | 中文字幕亚洲欧美日韩在线不卡 | 午夜免费福利影院 | 天天综合网天天综合 | 国产91精品网站 | 欧产日产国产精品视频 | 国产四区| 国内精品99| 亚洲精品小视频在线观看 | 久久久一区二区三区 | 久久久久久免费毛片精品 | 玖玖视频网| 久久大 | 久久精品视频在线免费观看 | 免费成人av | 久草院线| 一区二区三区日韩 | 人人人人爽 | 欧美黑人国产人伦爽爽爽 | 区一区二在线观看 | 亚洲国产一区在线 | 国产福利资源在线 | 亚洲一二三区精品 | 91一区二区三区 | 欧美人妇做爰xxxⅹ性高电影 | 成年视频在线观看福利资源 |