棄用Transformer！混元T1正式版推出，公開對(duì)壘DeepSeek：速度快幻覺少!混合Mamba架構(gòu)推理模型：成本再降低！

作者：伊風(fēng) 2025-03-24 08:26:45

混合Mamba架構(gòu)通過降低計(jì)算復(fù)雜度、緩存占用，同時(shí)發(fā)揮其在處理長(zhǎng)序列和捕捉復(fù)雜上下文方面的優(yōu)勢(shì)，成功應(yīng)對(duì)了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的挑戰(zhàn)，顯著提升了系統(tǒng)的整體效率和吞吐量。還實(shí)現(xiàn)了實(shí)現(xiàn)了訓(xùn)練跟推理成本的雙下降！

編輯 | 伊風(fēng)

深夜，騰訊開直播發(fā)布了T1的正式版。

騰訊在架構(gòu)上大膽棄用了Transformer，首個(gè)基于混合Mamba架構(gòu)的超大型推理模型就誕生了！

這樣做有啥好處呢：簡(jiǎn)單地說，混合Mamba架構(gòu)通過降低計(jì)算復(fù)雜度、緩存占用，同時(shí)發(fā)揮其在處理長(zhǎng)序列和捕捉復(fù)雜上下文方面的優(yōu)勢(shì)，成功應(yīng)對(duì)了大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的挑戰(zhàn)，顯著提升了系統(tǒng)的整體效率和吞吐量。還實(shí)現(xiàn)了實(shí)現(xiàn)了訓(xùn)練跟推理成本的雙下降！

從此，模型無論是思考還是生成答案都快到起飛！

圖片

官方也是非常自信地宣布：T1性能達(dá)到超一流水平，僅次OpenAI o1！

圖片

先來放個(gè)體驗(yàn)地址：https://llm.hunyuan.tencent.com/#/chat/hy-t1

圖片

對(duì)壘DeepSeek，T1速度快、情商高、幻覺少！

騰訊T1選擇深夜直播的目的很明顯：沖向國(guó)際化！

因此，在這場(chǎng)直播的前半段，也是相當(dāng)頻繁地以目前海內(nèi)外爆火的DeepSeek為標(biāo)桿。

首先，在回答質(zhì)量基本打平的情況下，T1的速度達(dá)到了DeepSeek的兩倍：

再做一個(gè)條件推理題目時(shí)，T1早早就進(jìn)行了交卷。

除了生成速度之外，T1在處理復(fù)雜指令上，也進(jìn)行了改進(jìn)。在demo的演示中，小哥出了上聯(lián)“深深淺淺溪流水”，進(jìn)行思考后T1對(duì)了“洋洋灑灑江河滿”。（雖然也不是最工整的對(duì)子，但已經(jīng)相當(dāng)出色）。

圖片

其次，T1在回答問題的文風(fēng)上做了優(yōu)化，使其回答更具通用性。

團(tuán)隊(duì)成員介紹說，我們觀察到某些推理模型像理工男，喜歡用高深的硬科技詞匯……。混元T1則對(duì)此進(jìn)行調(diào)整，雖然同樣擅長(zhǎng)理工科的長(zhǎng)推理，但在文科方面表現(xiàn)得比較中性，更適合通用任務(wù)和常識(shí)性任務(wù)。

“高深的硬科技詞匯”，DeepSeek:你直接報(bào)我名得了。

上圖：DeepSeek偏愛“量子糾纏”等術(shù)語

最后，T1還針對(duì)目前大模型飽受詬病的幻覺問題做了優(yōu)化，摘要幻覺率顯著低于行業(yè)水平，成為一大亮點(diǎn)。

“推理模型雖然看上去思考了很多，但就會(huì)產(chǎn)生更多的幻覺，有時(shí)候是無中生有，有時(shí)是張冠李戴。”混元T1針對(duì)這方面做了重點(diǎn)優(yōu)化。

小哥們表示，用T1來解讀研報(bào)非常香，簡(jiǎn)直是打工人的福音。

圖片

技術(shù)天團(tuán)解密：T1的超高性能從何而來

既然直播請(qǐng)到了技術(shù)團(tuán)隊(duì)，那肯定得解析下T1為何有如此多的獨(dú)到之處。

圖片

團(tuán)隊(duì)成員將其概述為以下三點(diǎn)：

1. 強(qiáng)大的通用模型基座

T1基于混元Turbo S通用模型基座，通過大規(guī)模高質(zhì)量數(shù)據(jù)訓(xùn)練，在預(yù)訓(xùn)練階段打下堅(jiān)實(shí)基礎(chǔ)。

2. 創(chuàng)新的后訓(xùn)練數(shù)據(jù)策略

在后訓(xùn)練階段，T1采用獨(dú)特的指令激發(fā)策略，注重高質(zhì)量Prompt和Response數(shù)據(jù)的獲取。通過復(fù)雜指令的多樣性和難度分級(jí)系統(tǒng)，確保指令的豐富性和層次性。同時(shí)，通過約束模型為每條Prompt生成Checklist，篩選出滿足多樣化約束的指令，防止指令分布不均勻。

3. 嚴(yán)格的數(shù)據(jù)質(zhì)量把控

T1在數(shù)據(jù)質(zhì)量方面采取了嚴(yán)格措施。首先，通過數(shù)據(jù)質(zhì)量檢測(cè)Pipeline（指的是按照特定順序執(zhí)行的質(zhì)量檢測(cè)步驟或操作流程），結(jié)合傳統(tǒng)算法和大模型檢測(cè)方法，確保訓(xùn)練數(shù)據(jù)的基礎(chǔ)質(zhì)量，避免低級(jí)錯(cuò)誤。其次，針對(duì)長(zhǎng)思維鏈數(shù)據(jù)中的幻覺和邏輯錯(cuò)誤問題，訓(xùn)練了一個(gè)Critic（批判）模型進(jìn)行嚴(yán)格把控。該模型能夠識(shí)別和檢測(cè)數(shù)據(jù)中的噪音問題，確保訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和可靠性，從而提升模型在復(fù)雜任務(wù)中的表現(xiàn)。

不僅如此，團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)很有意思的現(xiàn)象，即從理科訓(xùn)練獲得的推理能力是可以通過能力遷移到文科和其他領(lǐng)域的。

因此，團(tuán)隊(duì)刻意讓模型去進(jìn)行能力遷移，通過將早期版本融入獎(jiǎng)勵(lì)系統(tǒng)指導(dǎo)正式版本迭代，提升通用能力。