成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少! 原創

發布于 2025-3-24 10:04
瀏覽
0收藏

編輯 | 伊風

出品 | 51CTO技術棧(微信號:blog51cto)

深夜,騰訊開直播發布了T1的正式版。

騰訊在架構上大膽棄用了Transformer,首個基于混合Mamba架構的超大型推理模型就誕生了!

這樣做有啥好處呢:簡單地說,混合Mamba架構通過降低計算復雜度、緩存占用,同時發揮其在處理長序列和捕捉復雜上下文方面的優勢,成功應對了大規模強化學習訓練的挑戰,顯著提升了系統的整體效率和吞吐量。還實現了實現了訓練跟推理成本的雙下降!

從此,模型無論是思考還是生成答案都快到起飛!

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區圖片

官方也是非常自信地宣布:T1性能達到超一流水平,僅次OpenAI o1!

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區圖片

先來放個體驗地址:

?? https://llm.hunyuan.tencent.com/#/chat/hy-t1??

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區圖片

對壘DeepSeek,T1速度快、情商高、幻覺少!

騰訊T1選擇深夜直播的目的很明顯:沖向國際化!

因此,在這場直播的前半段,也是相當頻繁地以目前海內外爆火的DeepSeek為標桿。

首先,在回答質量基本打平的情況下,T1的速度達到了DeepSeek的兩倍:

再做一個條件推理題目時,T1早早就進行了交卷。

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區


除了生成速度之外,T1在處理復雜指令上,也進行了改進。在demo的演示中,小哥出了上聯“深深淺淺溪流水”,進行思考后T1對了“洋洋灑灑江河滿”。(雖然也不是最工整的對子,但已經相當出色)。

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區圖片

其次,T1在回答問題的文風上做了優化,使其回答更具通用性。

團隊成員介紹說,我們觀察到某些推理模型像理工男,喜歡用高深的硬科技詞匯……?;煸猅1則對此進行調整,雖然同樣擅長理工科的長推理,但在文科方面表現得比較中性,更適合通用任務和常識性任務。

“高深的硬科技詞匯”,DeepSeek:你直接報我名得了。

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區上圖:DeepSeek偏愛“量子糾纏”等術語

最后,T1還針對目前大模型飽受詬病的幻覺問題做了優化,摘要幻覺率顯著低于行業水平,成為一大亮點。

“推理模型雖然看上去思考了很多,但就會產生更多的幻覺,有時候是無中生有,有時是張冠李戴?!被煸猅1針對這方面做了重點優化。

小哥們表示,用T1來解讀研報非常香,簡直是打工人的福音。

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區圖片

技術天團解密:T1的超高性能從何而來

既然直播請到了技術團隊,那肯定得解析下T1為何有如此多的獨到之處。

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區圖片

團隊成員將其概述為以下三點:

1. 強大的通用模型基座

T1基于混元Turbo S通用模型基座,通過大規模高質量數據訓練,在預訓練階段打下堅實基礎。

2. 創新的后訓練數據策略

在后訓練階段,T1采用獨特的指令激發策略,注重高質量Prompt和Response數據的獲取。通過復雜指令的多樣性和難度分級系統,確保指令的豐富性和層次性。同時,通過約束模型為每條Prompt生成Checklist,篩選出滿足多樣化約束的指令,防止指令分布不均勻。

3. 嚴格的數據質量把控

T1在數據質量方面采取了嚴格措施。首先,通過數據質量檢測Pipeline(指的是按照特定順序執行的質量檢測步驟或操作流程),結合傳統算法和大模型檢測方法,確保訓練數據的基礎質量,避免低級錯誤。其次,針對長思維鏈數據中的幻覺和邏輯錯誤問題,訓練了一個Critic(批判)模型進行嚴格把控。該模型能夠識別和檢測數據中的噪音問題,確保訓練數據的準確性和可靠性,從而提升模型在復雜任務中的表現。

不僅如此,團隊還發現了一個很有意思的現象,即從理科訓練獲得的推理能力是可以通過能力遷移到文科和其他領域的。

因此,團隊刻意讓模型去進行能力遷移,通過將早期版本融入獎勵系統指導正式版本迭代,提升通用能力。

極致工程化,應對超大型推理模型的三大挑戰

不僅是技術創新,T1團隊在工程化方面也做了很多工作。

團隊成員介紹說,超大型推理模型目前面臨著“三座大山”:計算資源的效率挑戰、高帶寬帶來的通信挑戰、集群規模擴大之后,在規模擴展和穩定性方面的挑戰。

針對這些讓人頭疼的問題,T1團隊做了什么:

1. 提升計算資源利用率,優化通信效率

通過優化,T1在萬卡訓練任務中,計算資源利用率處于行業領先水平。同時,突破了分布式訓練和推理的通信瓶頸,有效提升了端到端存儲,使得訓練效率提升了2.6倍,推理成本降低了約70%。

2. 保障服務穩定性

在大規模GPU集群中,騰訊實現了萬卡線性擴展,加速比達到99%,服務穩定性達到99.5%,故障率僅為行業平均水平的三分之一。

3. 自研框架與組件

為高性能保駕護航的安全平臺主要包括兩個組件:

訓練組件(安全PDM):針對低端算力和顯存限制,騰訊自主研發了大規模訓練框架,通過統一內存顯存管理和多維并行優化,顯著提升了訓練的可擴展性。

推理組件(安全HCF):支持萬億級別的MOE大模型部署,具備多種并發策略、投機采樣、量化和稀疏化壓縮策略。此外,還支持PD分離部署策略,以充分利用高低端顯卡組合的性能。

4. 多模態場景的應用

Angel平臺已經在多個大模型場景中廣泛應用,包括多模態、語音、3D、視頻等,展現了其高性能和高穩定性的優勢。

寫在最后

在寫這篇文章的時候,小編也忍不住體驗了一把T1,的確速度拉滿。

在我測試的這個案例中,T1生成速度飛起的同時,思考的維度全面、信息給的更加豐富。

棄用Transformer!混元T1正式版推出,公開對壘DeepSeek:速度快幻覺少!-AI.x社區圖片

問題:為什么意大利面是低GI食物?

相信在這個周末,T1會擁有很多的實例測試,我們就能更加了解首款混合Mamba架構推理模型的真正實力了。

或許,T1的這波投石問路,會讓接下來有更多非Transformer的模型涌現出來呢?

本文轉載自??51CTO技術棧??,作者:伊風

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-3-24 10:32:57修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日韩欧美在 | 久久国产婷婷国产香蕉 | 日韩精品一区二区三区中文字幕 | 欧美不卡网站 | 小早川怜子xxxxaⅴ在线 | 黄a大片 | 国产一区二区美女 | 国产精品久久 | 免费视频一区二区三区在线观看 | 国产免费播放视频 | 亚洲免费在线 | 精品永久| 日韩视频一区二区 | 亚洲福利在线观看 | 91中文 | 色婷婷综合久久久中字幕精品久久 | 日本精品一区二区三区在线观看视频 | h视频在线免费观看 | 国产免费视频 | 亚洲视频免费观看 | 久久看看 | 日韩欧美在线播放 | 日韩在线播放中文字幕 | 黄色大片网 | 91精品中文字幕一区二区三区 | 亚洲精品一区二区三区中文字幕 | 久久精品色欧美aⅴ一区二区 | 中文av网站| 日韩精品一区二区三区中文在线 | 亚洲免费观看视频网站 | 午夜www| 亚洲欧美一区二区三区国产精品 | 国产不卡在线播放 | 欧美啊v在线观看 | 欧美a在线看 | 精品综合 | 免费观看一级特黄欧美大片 | 91成人精品| 国产免费拔擦拔擦8x高清 | 一区二区三区日韩 | 91在线精品一区二区 |