成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

amei2000go
LV.4
這個(gè)用戶很懶,還沒(méi)有個(gè)人簡(jiǎn)介
聲望 615
關(guān)注 0
粉絲 8
私信
主帖 59
回帖
一、背景LLMInference中的數(shù)值穩(wěn)定性問(wèn)題是一個(gè)長(zhǎng)期存在的挑戰(zhàn)。自從ChatGPT發(fā)布以來(lái),關(guān)于同樣輸入下,盡管使用了GreedySearch,輸出仍然存在差異的問(wèn)題就引發(fā)了廣泛關(guān)注。在我們之前的文章中,也曾涉及這一問(wèn)題。最近,我們注意到一篇新的論文,針對(duì)這一問(wèn)題進(jìn)行了深入分析和討論,本文將對(duì)其進(jìn)行簡(jiǎn)要介紹。對(duì)應(yīng)的論文:[2506.09501]GiveMeFP32orGiveMeDeathChallengesandSolutionsforReproducibleReasoning[1]二、摘要研究表...
23h前 219瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景筆者之前寫過(guò)FP8訓(xùn)練的綜述文章以及FP4訓(xùn)練和推理的綜述文章,本文對(duì)其進(jìn)一步補(bǔ)充,介紹NVIDIA最新的使用MXFP8預(yù)訓(xùn)練的方案。對(duì)應(yīng)的論文:[2506.08027]RecipesforPretrainingLLMswithMXFP8[1]二、摘要精度縮放——即在預(yù)訓(xùn)練過(guò)程中使用更少的比特來(lái)表示模型參數(shù)及相關(guān)Tensor——已成為一種在不犧牲精度前提下提升GPU效率的有效技術(shù)。NVIDIA最新BlackwellGPU中引入Microscaling(MX)格式,為Tensor量化提供了細(xì)粒度解決方...
2025-06-13 06:57:47 930瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近華為推出了超節(jié)點(diǎn)CloudMatrix384,進(jìn)一步引發(fā)業(yè)內(nèi)對(duì)ScaleUp和ScaleOut的廣泛討論。不可避免地也會(huì)涉及與NVIDIA超節(jié)點(diǎn)NVL72的對(duì)比。ScaleUp和ScaleOut各自具有不同的優(yōu)劣勢(shì)和局限性。除了擴(kuò)展性和成本問(wèn)題外,故障和容錯(cuò)也是一個(gè)不可忽略的挑戰(zhàn)。本文中,我們介紹一個(gè)NVIDIA最近在這一領(lǐng)域的研究工作,著重探討隨著ScaleUp域的擴(kuò)展,如何應(yīng)對(duì)相應(yīng)的容錯(cuò)問(wèn)題。對(duì)應(yīng)的論文為:[2504.06095]NonuniformTensorParallelism...
2025-06-03 06:08:14 979瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在之前的系列文章中,筆者已經(jīng)系統(tǒng)性地介紹過(guò)大規(guī)模LLM訓(xùn)練面臨的各種挑戰(zhàn)以及可能涉及的問(wèn)題和解決方案。在對(duì)大規(guī)模任務(wù)進(jìn)行Profiling分析的時(shí)候,面對(duì)成千上萬(wàn)的kernel也經(jīng)常苦不堪言,想要通過(guò)統(tǒng)計(jì)分析來(lái)診斷相應(yīng)的問(wèn)題,并為優(yōu)化提供更多的可能性。碰巧看到了字節(jié)跳動(dòng)Seed的這篇文章,雖然社區(qū)內(nèi)沒(méi)有看到太多討論,不過(guò)其確實(shí)與我們的一些思路不謀而合,這里進(jìn)行簡(jiǎn)單介紹。其實(shí)文章中的大部分結(jié)論性內(nèi)容筆者在之前...
2025-05-20 06:24:53 1208瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景大模型,如大語(yǔ)言模型(LLM)和大型多模態(tài)模型(LMM),正在改變自然語(yǔ)言處理和多模態(tài)任務(wù)的格局。然而,這些模型的Inference過(guò)程面臨大計(jì)算、大內(nèi)存、高時(shí)延等諸多挑戰(zhàn)。為了應(yīng)對(duì)這些問(wèn)題,分布式分離Inference系統(tǒng)應(yīng)運(yùn)而生,旨在通過(guò)將模型的不同部分分開處理來(lái)優(yōu)化性能。大體來(lái)說(shuō),大模型Inference經(jīng)歷了從單體到分布式,再到分離式的演進(jìn),并在繼續(xù)發(fā)展中:1.單體Inference階段(2020年前):模型完整加載至單個(gè)設(shè)...
2025-05-07 00:27:19 1915瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景此前筆者對(duì)AIAgent研究的涉獵比較少,也基本沒(méi)有系統(tǒng)介紹過(guò)與Agent相關(guān)的內(nèi)容。然而,最近由Anthropic提出的MCP(ModelContextProtocol[1],模型上下文協(xié)議)在社區(qū)中引發(fā)廣泛關(guān)注,筆者也趁此機(jī)會(huì)“蹭蹭熱度”,了解下MCP到底是什么,了解一下MCP的基本概念和工作機(jī)制。在最初接觸MCP時(shí),也曾對(duì)其一些設(shè)計(jì)感到困惑。于是帶著這些疑問(wèn)進(jìn)行了進(jìn)一步的調(diào)研,逐漸對(duì)MCP的組成及運(yùn)作方式有了初步的認(rèn)識(shí),比如:MCP中的Resou...
2025-04-22 06:51:21 3908瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在大規(guī)模分布式訓(xùn)練場(chǎng)景中,計(jì)算和通信的重疊(Overlap)一直是一個(gè)關(guān)鍵的研究熱點(diǎn)。隨著硬件性能的提升,計(jì)算能力和通信帶寬之間的差距日益顯著。如下圖所示,硬件算力每2年大約擴(kuò)大3x,而通信帶寬每2年只提升1.4x,這種差距帶來(lái)的影響在大規(guī)模訓(xùn)練任務(wù)中愈加明顯。例如,在使用H100和A100集群進(jìn)行LLM訓(xùn)練時(shí),H100的通信開銷占比通常會(huì)高于A100。這種情況下,通信可能成為了系統(tǒng)性能的瓶頸,因此,如何在計(jì)算和通信之...
2025-04-09 06:48:28 1964瀏覽 1點(diǎn)贊 0回復(fù) 1收藏
一、背景筆者之前的文章(萬(wàn)字綜述LLM訓(xùn)練中的Overlap優(yōu)化:字節(jié)Flux等7種方案)中詳細(xì)介紹過(guò)各種計(jì)算與通信Overlap的方案,這里進(jìn)一步介紹字節(jié)最近發(fā)表的TileLink,其中提到的大部分工作已經(jīng)包含在我們之前的綜述中,建議優(yōu)先閱讀,比如CoCoNet、Centauri、Flux等。對(duì)應(yīng)的論文:[2503.20313]TileLink:GeneratingEfficientComputeCommunicationOverlappingKernelsusingTileCentricPrimitives[1]二、摘要大規(guī)模深度學(xué)習(xí)模型通常...
2025-04-09 06:45:50 2468瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近幾天Google發(fā)布了最新的Gemma3系列開源模型,迅速成為業(yè)界熱議的焦點(diǎn),其中,Gemma327BIT模型尤為引人注目。如下圖所示為Google廣泛宣傳的Gemma327BIT模型在ChatbotArenaLeaderboard[1]上的表現(xiàn),以27B的參數(shù)量,不僅超越了更大參數(shù)量的DeepSeekV3(實(shí)際激活參數(shù)量差不多),并且接近頂尖的DeepSeekR1。事實(shí)上性能真的這么“炸裂”嗎?還是面向ChatbotArena的優(yōu)化?值得注意的是,ChatbotArena的排名基于用戶盲測(cè)投...
2025-03-27 07:18:03 2331瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景DeepSeekV3R1模型的發(fā)布,以及AIInfra相關(guān)代碼庫(kù)的開源,對(duì)大模型從業(yè)者產(chǎn)生了不容忽視的影響。從短期來(lái)看,這些工作確實(shí)推動(dòng)了業(yè)界對(duì)AIInfra建設(shè)的關(guān)注,至少促使人們開始重視算法與Infra的協(xié)同設(shè)計(jì)。這一變化也看似提升了Infra團(tuán)隊(duì)在整個(gè)大模型生成鏈路的話語(yǔ)權(quán),但也為相關(guān)從業(yè)者帶來(lái)了更大的學(xué)習(xí)壓力與追趕挑戰(zhàn),甚至看到一些公司或團(tuán)隊(duì)因而重新審視了原有的發(fā)展規(guī)劃。近期,我依然保持閱讀了一些相關(guān)文章,但由于...
2025-03-17 00:52:51 1976瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、引言DeepSeek從2024年01月到2025年01月發(fā)布了一系列模型,其中最主要的就是語(yǔ)言系列模型,這個(gè)文檔中我們會(huì)對(duì)語(yǔ)言模型涉及的關(guān)鍵技術(shù)進(jìn)行具體介紹:語(yǔ)言模型:DeepSeekV1、MoE、V2、V3。多模態(tài)模型:DeepSeekVL1、VL2、Janus。數(shù)學(xué)、代碼、Reasoning模型:DeepSeekMath、Coder、CoderV2、R1。如下圖所示,圖中我們匯集了DeepSeekV1、MoE、V2、V3、R1系列模型中的關(guān)鍵技術(shù)點(diǎn);此外,也補(bǔ)充了DeepSeekA100和H800GPU集群的關(guān)鍵...
2025-03-05 10:11:27 5703瀏覽 1點(diǎn)贊 0回復(fù) 1收藏
一、背景最近幾天DeepSeek的NSA以及Moonshot的MoBA受到廣泛關(guān)注,我也在第一時(shí)間看了相關(guān)論文。由于最近DeepSeek的火爆,各大平臺(tái)上也出現(xiàn)了非常多對(duì)這兩篇文章的介紹,這里不再贅述其襲擊,只是簡(jiǎn)單陳述一下我的一些思考和看法。在看這兩篇論文的時(shí)候,我們可以發(fā)現(xiàn)其很多觀點(diǎn)和手段都似曾相識(shí),其他在之前的Quest、SeerAttention(之前也分享過(guò))等論文都有相關(guān)介紹。不過(guò),其在工業(yè)落地方面提供了更多的可能性,比如Moonshot...
2025-02-24 11:18:18 2079瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景上一篇文章中我們具體介紹了DeepSeekR1系列模型的構(gòu)建流程和關(guān)鍵技術(shù)點(diǎn),考慮到最近出現(xiàn)了許多相關(guān)工作,也分別得出了各種不同的結(jié)論,與此同時(shí)還出現(xiàn)了大量的誤解。本文中,我們整理了DeepSeekR1等6篇Reasoning相關(guān)文章的關(guān)鍵結(jié)論,以便相互驗(yàn)證和對(duì)比。如下圖所示為這些文章中的一些關(guān)鍵指標(biāo):相關(guān)工作可以參考我們之前的文章:???DeepSeekR1論文解讀&關(guān)鍵技術(shù)點(diǎn)梳理??????DeepSeekV3詳細(xì)解讀:模型&Infra建...
2025-02-14 14:07:41 2619瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景本文中我們繼續(xù)介紹小紅書用于多模態(tài)場(chǎng)景筆記推薦的NoteLLM2。對(duì)應(yīng)的論文為:[2405.16789]NoteLLM2:MultimodalLargeRepresentationModelsforRecommendation[1]二、摘要LLM在文本理解方面展現(xiàn)了卓越能力,現(xiàn)有研究也已探討了其在文本Embedding任務(wù)中的應(yīng)用,然而,利用LLM輔助多模態(tài)表征任務(wù)的研究尚不多見。本文作者旨在探索LLM在多模態(tài)ItemtoItem(I2I)推薦中增強(qiáng)多模態(tài)表征的潛力。如下圖Figure1所示,一種可行的方...
2025-02-06 15:23:53 2504瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景最近“TikTok難民”涌入小紅書,“小紅書霸榜蘋果AppStore”等話題受到廣泛關(guān)注,字節(jié)跳動(dòng)的Lemon8也不相上下。當(dāng)然,作為一個(gè)技術(shù)公眾號(hào),我們這里并不是要討論這一現(xiàn)象,而是要介紹小紅書的NoteLLM,其主要用于小紅書中的筆記推薦和標(biāo)簽生成。對(duì)應(yīng)的論文為:[2403.01744]NoteLLM:ARetrievableLargeLanguageModelforNoteRecommendation[1]有關(guān)LLM在搜廣推場(chǎng)景的應(yīng)用落地也可以參考我們之前的文章:???字節(jié)HLLM:大...
2025-01-22 13:17:01 6065瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景我們?cè)谥暗奈恼轮性敿?xì)分析過(guò)GQA相比MHA的推理優(yōu)勢(shì)(省顯存、計(jì)算強(qiáng)度高),不過(guò)GQA有可能導(dǎo)致精度的損失,因此早期的一些不太大的LLM會(huì)使用MHA。針對(duì)這個(gè)問(wèn)題有兩種優(yōu)化思路:將MHA轉(zhuǎn)換為GQA,長(zhǎng)短序列都適用。在長(zhǎng)序列場(chǎng)景使用Token稀疏化方案或者結(jié)合投機(jī)采樣策略。?本文中我們介紹一個(gè)將MHA轉(zhuǎn)換為GQA的工作,不過(guò)論文的實(shí)驗(yàn)還偏少,效果也不是非常好;此外,最新的模型基本都在預(yù)訓(xùn)練階段默認(rèn)采用GQA(LLaMA38B、...
2025-01-13 11:35:18 2573瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在之前的文章中我們介紹了字節(jié)的HLLM方案(???字節(jié)HLLM:大模型與推薦系統(tǒng)結(jié)合的新范式??),其中也提到了Meta的HSTU,本文中我們簡(jiǎn)單介紹一些這篇論文。對(duì)應(yīng)的論文為:[2402.17152]ActionsSpeakLouderthanWords:TrillionParameterSequentialTransducersforGenerativeRecommendations對(duì)應(yīng)的代碼庫(kù)為:GitHubfacebookresearchgenerativerecommenders二、摘要大規(guī)模推薦系統(tǒng)具有以下特征:依賴于高基數(shù)、異質(zhì)特征,...
2025-01-03 13:35:39 1.1w瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
一、背景在之前的多篇文章中,我們?cè)阈翘岬竭^(guò)GPU利用率以及GPU異常引發(fā)的大規(guī)模任務(wù)失敗問(wèn)題。在本文中,我們將對(duì)這些內(nèi)容進(jìn)行更為系統(tǒng)的匯總,具體介紹常見的GPU監(jiān)控指標(biāo)及各種GPU異常情況。為了更好地說(shuō)明問(wèn)題,我們還將結(jié)合我們自己的實(shí)踐經(jīng)驗(yàn)以及其他相關(guān)論文中的案例進(jìn)行分析和討論。二、引言2.1MFU&HFU為了評(píng)估LLM訓(xùn)練時(shí)的效率,業(yè)界通常會(huì)使用ModelFLOPSUtilization(MFU)和HardwareFLOPSUtilization(HFU)兩個(gè)關(guān)鍵...
2024-12-25 12:03:25 6833瀏覽 2點(diǎn)贊 0回復(fù) 1收藏
一、背景前段時(shí)間的文章里我們剛剛介紹過(guò)兩個(gè)對(duì)LLM分布式推理場(chǎng)景中AllReduce的優(yōu)化工作,一個(gè)是NVIDIATensorRTLLM中的MultiShot無(wú)損優(yōu)化,另一個(gè)是Recogni提出的基于量化壓縮實(shí)現(xiàn)的AllReduce加速方案。本文中我們繼續(xù)介紹美團(tuán)新發(fā)表的AllReduce量化壓縮優(yōu)化方案。對(duì)應(yīng)的論文為:[2412.04964]FlashCommunication:ReducingTensorParallelizationBottleneckforFastLargeLanguageModelInference[1]二、摘要隨著LLM規(guī)模的不斷增長(zhǎng),...
2024-12-17 12:53:04 2908瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
獲得成就
已積累 5.7w 人氣
獲得 7 個(gè)點(diǎn)贊
獲得 5 次收藏
主站蜘蛛池模板: 久久久久久久综合 | 久久精品免费观看 | www.99热.com| 亚洲综合区 | 青青草这里只有精品 | 在线综合视频 | 曰批视频在线观看 | 国产日韩一区二区 | 亚洲日本一区二区三区四区 | 久久久久久国产精品 | 国产精品国产精品 | 伊人网站在线 | 亚洲欧美日韩一区二区 | 极情综合网 | 欧美精品一区二区免费视频 | 日韩在线免费播放 | 91爱啪啪| 在线播放中文字幕 | 伊人网站在线观看 | 亚洲视频国产视频 | 精品国产伦一区二区三区观看方式 | 欧美视频一区二区三区 | 亚洲精品一区在线 | 日本国产高清 | 久久一二区 | 一区二区三区四区视频 | 国产一级片网站 | 一区二区视频在线观看 | 日韩中文一区二区三区 | 视频一区二区三区中文字幕 | 一区二区三区精品视频 | 98久久| 黄色片视频 | 中国毛片免费 | 欧美日韩国产高清 | 一区二区欧美在线 | 一区二区三区网站 | 久久小视频 | 在线观看黄视频 | 黄 色 毛片免费 | 伦理一区二区 |