成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達(dá)下場(chǎng),首次優(yōu)化DeepSeek-R1!B200性能狂飆25倍,碾壓H100

人工智能 新聞
最近,英偉達(dá)開(kāi)源了首個(gè)在Blackwell架構(gòu)上優(yōu)化的DeepSeek-R1,實(shí)現(xiàn)了推理速度提升25倍,和每token成本降低20倍的驚人成果。同時(shí),DeepSeek連續(xù)開(kāi)源多個(gè)英偉達(dá)GPU優(yōu)化項(xiàng)目,共同探索模型性能極限。

當(dāng)FP4的魔法與Blackwell的強(qiáng)大算力相遇,會(huì)碰撞出怎樣的火花?

答案是:推理性能暴漲25倍,成本狂降20倍!

隨著DeepSeek-R1本地化部署的爆火,英偉達(dá)也親自下場(chǎng),開(kāi)源了首個(gè)基于Blackwell架構(gòu)的優(yōu)化方案——DeepSeek-R1-FP4。

圖片

在新模型的加持下,B200實(shí)現(xiàn)了高達(dá)21,088 token每秒的的推理吞吐量,相比于H100的844 token每秒,提升了25倍。

與此同時(shí),每token的成本也實(shí)現(xiàn)了20倍的降低。

通過(guò)在Blackwell架構(gòu)上應(yīng)用TensorRT DeepSeek優(yōu)化,英偉達(dá)讓具有FP4生產(chǎn)級(jí)精度的模型,在MMLU通用智能基準(zhǔn)測(cè)試中達(dá)到了FP8模型性能的99.8%。

圖片

DeepSeek-R1首次基于Blackwell GPU優(yōu)化

目前,英偉達(dá)基于FP4優(yōu)化的DeepSeek-R1檢查點(diǎn)現(xiàn)已在Hugging Face上開(kāi)源。

圖片

模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

后訓(xùn)練量化

模型將Transformer模塊內(nèi)的線性算子的權(quán)重和激活量化到了FP4,適用于TensorRT-LLM推理。

這種優(yōu)化將每個(gè)參數(shù)從8位減少到4位,從而讓磁盤(pán)空間和GPU顯存的需求減少了約1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4權(quán)重文件,并為給定的提示生成文本響應(yīng),請(qǐng)參照以下示例代碼:

硬件要求:需要支持TensorRT-LLM的英偉達(dá)GPU(如B200),并且需要8個(gè)GPU來(lái)實(shí)現(xiàn)tensor_parallel_size=8的張量并行。

性能優(yōu)化:代碼利用FP4量化、TensorRT引擎和并行計(jì)算,旨在實(shí)現(xiàn)高效、低成本的推理,適合生產(chǎn)環(huán)境或高吞吐量應(yīng)用。

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM


def main():


    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)


    llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)


    outputs = llm.generate(prompts, sampling_params)


    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")




# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

對(duì)于此次優(yōu)化的成果,網(wǎng)友表示驚嘆。

「FP4魔法讓AI未來(lái)依然敏銳!」網(wǎng)友Isha評(píng)論道。

圖片

網(wǎng)友a(bǔ)lgorusty則聲稱,有了這次的優(yōu)化后,美國(guó)供應(yīng)商能夠以每百萬(wàn)token 0.25美元的價(jià)格提供R1。

「還會(huì)有利潤(rùn)。」

圖片

網(wǎng)友Phil則將這次的優(yōu)化與DeepSeek本周的開(kāi)源5連發(fā)結(jié)合了起來(lái)。

「這展示了硬件和開(kāi)源模型結(jié)合的可能性。」他表示。

圖片

DeepSeek全面開(kāi)源

如今DeepSeek持續(xù)5天的「開(kāi)源周」已經(jīng)進(jìn)行到了第3天。

周一,他們開(kāi)源了FlashMLA。這是DeepSeek專為英偉達(dá)Hopper GPU打造的高效MLA解碼內(nèi)核,特別針對(duì)變長(zhǎng)序列進(jìn)行了優(yōu)化,目前已正式投產(chǎn)使用。

周二開(kāi)源了DeepEP,這是一個(gè)專為混合專家系統(tǒng)(MoE)和專家并行(EP)設(shè)計(jì)的通信庫(kù)。

周三開(kāi)源的是DeepGEMM。這是一個(gè)支持稠密和MoE模型的FP8 GEMM(通用矩陣乘法)計(jì)算庫(kù),可為V3/R1的訓(xùn)練和推理提供強(qiáng)大支持。

總的來(lái)說(shuō),不管是英偉達(dá)開(kāi)源的DeepSeek-R1-FP4,還是DeepSeek開(kāi)源的三個(gè)倉(cāng)庫(kù),都是通過(guò)對(duì)英偉達(dá)GPU和集群的優(yōu)化,來(lái)推動(dòng)AI模型的高效計(jì)算和部署。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-03-19 09:52:50

2025-05-06 15:39:53

DeepSeek-R英偉達(dá)開(kāi)源

2025-06-16 09:13:00

2024-08-28 13:34:13

2025-04-27 08:54:00

英偉達(dá)開(kāi)源模型

2023-04-06 09:37:22

谷歌AI

2025-05-09 08:55:00

2024-06-26 13:15:40

2023-11-14 08:59:25

英偉達(dá)AI

2025-03-19 10:10:43

2024-05-11 08:30:00

AI芯片

2023-09-10 12:37:38

模型英偉達(dá)

2024-07-12 11:35:49

2023-11-21 09:14:33

微軟Azure AI

2025-02-19 08:00:00

2025-04-16 08:50:00

模型AI數(shù)據(jù)

2023-09-14 13:23:00

AI芯片

2025-05-07 10:12:52

英偉達(dá)模型AI

2025-06-13 11:24:39

英偉達(dá)AI芯片
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日本免费一区二区三区四区 | 91色在线视频 | 国产在线观看一区 | 国产精品久久久久久久久久三级 | 国产精品久久久乱弄 | 欧美电影一区 | 天天干人人 | 一级在线观看 | 在线中文视频 | 久久久视 | 精品国产乱码 | 日韩三级视频 | 久久精品综合 | 亚洲视频www | 欧美日韩精品亚洲 | 成人av电影免费在线观看 | 国产精品自在线 | 精品国产乱码久久久久久丨区2区 | 亚洲国产一区视频 | 一级黄色毛片a | 91精品久久 | 亚洲第一黄色网 | 懂色av蜜桃av | 精品一区二区在线观看 | 在线不卡视频 | 精品一区二区三区日本 | 九九热精 | 亚洲一区二区在线 | 日韩一区二区福利视频 | 亚洲导航深夜福利涩涩屋 | 中文字幕亚洲精品 | 亚洲国产情侣自拍 | 欧美激情视频一区二区三区在线播放 | 久久免费精品 | 亚洲精品在线视频 | 精品一区二区三区在线观看国产 | 热99视频 | 7777精品伊人久久精品影视 | 欧美啊v在线观看 | 免费中文字幕 | 亚洲综合无码一区二区 |