成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Nvidia發布TensorRT-LLM開源軟件 提升高端GPU芯片上的AI模型性能

人工智能 新聞
TensorRT-LLM軟件套件現已可供Nvidia開發人員計劃中的開發人員搶先體驗,并將于下個月集成到用于生產型AI端到端軟件平臺Nvidia AI Enterprise的NeMo框架中。

Nvidia近日宣布推出一款名為TensorRT-LLM的新開源軟件套件,擴展了Nvidia GPU上大型語言模型優化的功能,并突破了部署之后人工智能推理性能的極限。

生成式AI大語言模型因其令人印象深刻的功能而變得流行,而且擴大了人工智能的可能性,被廣泛應用于眾多行業,讓用戶能夠通過聊天機器人“與數據對話”、總結大型文檔、編寫軟件代碼、以及發現理解信息的新方法。

Nvidia公司超大規模和高性能計算副總裁Ian Buck表示:“大型語言模型推理變得越來越難。模型的復雜性不斷增加,模型變得越來越智能,也變得越來越大,這是很自然的,但當模型擴展到單個GPU之外并且必須在多個GPU上運行的時候,就成了一大難題。”

在人工智能方面,推理是模型處理那些前所未見的新數據的一個過程,例如用于總結、生成代碼、提供建議或者回答問題,是大型語言模型的主力。

隨著模型生態系統的迅速擴展,模型也變得越來越大,功能越來越多,這也意味著模型變得如此之大以至于無法同時運行在單個GPU上,而必須將其分開。開發人員和工程師必須手動將工作負載分開或分段,協調執行,以便實時獲得響應。TensorRT-LLM就是通過“張量并行性”幫助解決這個問題的,允許跨多個GPU進行大規模的高效推理。

除此之外,由于當今市場中有各種各樣的大型語言模型,所以Nvidia針對目前主流的大型語言模型對核心進行了優化。該軟件套件包括了完全優化的、可立即運行的大型語言模型版本,包括Meta Platform的Llama 2、OpenAI的GPT-2和GPT-3、Falcon、MosaicMPT和BLOOM。

應對動態工作負載的“運行中批處理”機制

由于大型語言模型本身的性質,模型的工作負載可能是高度動態的,工作負載的需求和任務使用情況也可能會隨著時間的推移而發生變化,單個模型可以同時用作聊天機器人來提問和回答,也可以用于總結大型文檔和簡短文檔。因此,輸出大小可能會出現完全不同的數量級。

為了應對這些不同的工作負載,TensorRT-LLM引入了一種稱為“運行中批處理”的機制,這是一個優化調度的過程,把文本生成過程分解為多個片段,以便可以將移入或者移出GPU,這樣在開始新一批之前就不需要完成整批工作負載了。

以前,如果有大型請求的話,例如對非常大的文檔進行摘要提取,那么后面所有的內容都必須等待該過程完成才能使隊列繼續前進。

Nvidia一直在與眾多廠商合作優化TensorRT-LLM,包括Meta、Cohere、Grammarly、Databricks和Tabnine。在他們的幫助下,Nvidia不斷簡化軟件套件中的功能和工具集,包括開源Python應用用戶界面,用于定義和優化新架構以定制大型語言模型。

例如,MosaicML在將TensorRT-LLM與其現有軟件堆棧集成時在TensorRT-LLM之上添加額外的功能。Databricks公司工程副總裁Naveen Rao表示,這是一個簡單的過程。

“TensorRT-LLM易于使用,功能豐富,包括令牌流、動態批處理、分頁注意力、量化等,而且效率很高,為使用 NVIDIA GPU的大型語言模型服務提供了最佳性能,并使我們能夠將節省的成本回饋給我們的客戶?!?/p>

Nvidia稱,TensorRT-LLM及其帶來的好處(包括運行中批處理功能)可以讓使用Nvidia H100提取文章摘要的推理性能提高1倍多。在使用GPT-J-6B模型進行對CNN/每日郵報文章摘要的A100測試中,僅H100就要比A100快4倍,啟用TensorRT-LLM優化后,速度快了8倍。

TensorRT-LLM為開發人員和工程師提供了深度學習編譯器、優化的大型語言模型內核、預處理和后處理、多GPU/多節點通信功能、以及簡單的開源API,使他們能夠快速優化和執行大型語言模型生產的推理。隨著大型語言模型繼續重塑數據中心,企業需要更高的性能就意味著開發人員比以往任何時候都更需要能夠為他們提供具備功能和訪問權限的工具,以提供更高性能的結果。

TensorRT-LLM軟件套件現已可供Nvidia開發人員計劃中的開發人員搶先體驗,并將于下個月集成到用于生產型AI端到端軟件平臺Nvidia AI Enterprise的NeMo框架中。

責任編輯:姜華 來源: 至頂網
相關推薦

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-10-22 09:17:07

2023-09-10 12:37:38

模型英偉達

2024-02-04 00:00:00

Triton格式TensorRT

2022-05-14 17:01:21

開源LinuxNVIDIA

2024-01-09 12:58:21

PC性能NVIDIA

2018-05-17 08:14:01

云知聲

2020-05-29 15:40:40

NVIDIA

2023-06-25 13:37:09

GPT-4AI

2024-07-29 08:19:00

服務引擎

2024-05-14 11:31:29

IBM開源Granite AI

2016-09-29 15:51:27

LinuxNtop性能

2025-05-09 01:00:00

大語言模型LLMGPU內存

2017-10-09 10:40:43

AMD

2023-06-19 16:05:22

大型語言模型人工智能

2023-04-07 07:38:59

2024-09-20 10:37:50

2023-12-25 09:07:50

AI人工智能Ferret

2013-12-12 16:29:07

通達信科高端OA

2015-07-01 10:09:52

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人精品一区亚洲午夜久久久 | 99精品欧美一区二区三区综合在线 | 亚洲国产精品久久久 | 国产精品一区久久久 | 午夜国产在线 | 国产精品91久久久久久 | 成人小视频在线观看 | 草草视频在线播放 | 中文字幕日韩欧美一区二区三区 | 亚洲色图图片 | 欧美成年人视频在线观看 | 成人精品区 | 欧美一区二区 | 成人一区二区三区在线观看 | jdav视频在线观看免费 | 精品久久久久久久久久久院品网 | 亚洲免费片 | 欧美不卡一区二区三区 | 亚洲啊v| 日韩精品一区二区三区视频播放 | 丝袜一区二区三区 | 国产亚洲精品久久久久动 | 欧美三级视频在线观看 | 99久久国产 | 欧美成人免费在线 | 欧美vide | 欧美视频免费在线观看 | 不卡的av在线 | 国产高清美女一级a毛片久久w | 日本一二区视频 | 国产精品美女久久久久久久网站 | 亚洲欧洲在线观看视频 | www.蜜桃av | www,黄色,com| 午夜免费看 | 一级毛片观看 | 精品国产99| 精品国产欧美在线 | 一区二区在线 | 国产激情自拍视频 | 日日夜夜天天干 |