成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<table id="lxgfx"><nav id="lxgfx"><tfoot id="lxgfx"></tfoot></nav></table>

<form id="lxgfx"></form>

<strike id="lxgfx"></strike>

<samp id="lxgfx"></samp>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

測試時訓練(TTT)太強了！

發布于 2024-11-21 14:15

瀏覽

0收藏

論文筆記分享，標題：The Surprising Effectiveness of Test-Time Training for Abstract Reasoning

測試時訓練（TTT）是個新概念：在推理過程中使用從輸入數據派生的損失暫時更新模型參數

文章的結論：

測試時訓練(TTT)太強了！-AI.x社區

TTT 顯著提高了 ARC 任務上的性能，與基線微調模型相比，準確率提高了高達 6 倍；將 TTT 應用于一個 8B 參數的語言模型，在 ARC 的公共驗證集上達到了 53%的準確率，將公共和純神經網絡方法的最新水平提高了近 25%。通過將我們的方法與最近的程序生成方法相結合，獲得了 61.9%的 SoTA 公共驗證準確率，與人類評分接近。

ARC 任務：一個評估語言模型抽象推理能力的基準測試。通過一系列視覺謎題任務來考驗模型解決新問題的能力。每個任務由2D網格（大小可達30×30）組成，網格中包含由多達10種不同顏色的形狀或模式。輸出是通過將一個直觀且共同的變換規則或函數應用于輸入網格來獲得的。

算法步驟：

測試時訓練(TTT)太強了！-AI.x社區

從訓練輸入-輸出對中創建留一法任務，然后通過基于規則的變換來增強數據集。

測試時訓練(TTT)太強了！-AI.x社區

在測試時訓練期間，使用LoRA來優化。為每個任務學習一個特定的LoRA適配器，而不是為所有任務學習一個單一的適配器。

測試時訓練(TTT)太強了！-AI.x社區

使用幾何變換生成多個預測候選，然后通過貪婪解碼方案進行預測。采用分層投票策略，首先在每個變換內進行投票，然后對每個變換的候選進行全局投票，以確定最終預測。

測試時訓練(TTT)太強了！-AI.x社區

本文轉載自??NLP前沿??

標簽

贊

收藏

回復

舉報

回復

相關推薦

弱智吧竟成最佳中文AI訓練數據？！中科院等：8項測試第一，遠超知乎豆瓣小紅書

Crystalcxt ? 4140瀏覽 ? 0回復
超10秒高分辨率，北大Open Sora視頻生成更強了，還支持華為芯片

輕薄滴假象 ? 2768瀏覽 ? 0回復
OpenAI曾轉錄100萬小時視頻數據，訓練GPT-4

Aceryt ? 2467瀏覽 ? 0回復
如何測試大模型

51CTO技術棧 ? 4029瀏覽 ? 0回復
【LLM】CRAG - 綜合性RAG基準測試

sbf_2000 ? 4797瀏覽 ? 0回復
時頻圖像分類，還在用VGG、ResNet?

Tang_Lan ? 3475瀏覽 ? 0回復
時頻圖像分類，還在用VGG、ResNet?

Tang_Lan ? 2641瀏覽 ? 0回復
訓練大模型時，顯存都哪去了？

魚蟲子 ? 3261瀏覽 ? 0回復
2024時序預測都有哪些經典工作—總結篇

海因斯DK ? 3990瀏覽 ? 0回復
FineMedLM-o1: 基于監督微調與測試時訓練的醫學推理增強型大語言模型

頓數AI ? 3184瀏覽 ? 0回復
DeepSeek 爆了，普通人如何3小時完全從0訓練自己的大模型

玄姐聊AGI ? 7171瀏覽 ? 0回復
S1：簡單高效的測試時推理能力擴展方法

上堵吟1 ? 2231瀏覽 ? 0回復
太強大了！又一個國產AI出來了！

數師兄 ? 4961瀏覽 ? 0回復
1B模型如何通過測試時優化逆襲405B LLM？

arnoldzhw ? 2160瀏覽 ? 0回復
DeepSeek做爆款圖文，太強了

Bx玩AI ? 2560瀏覽 ? 0回復
DeepSeek如何顛覆傳統軟件測試？測試工程師會被淘汰嗎？

mb67d4200f74d5e ? 1517瀏覽 ? 0回復
我測試了智譜新發布的AI智能體：不僅會思考還會自己干活，用它15分鐘=人工2小時（附安裝教程）

Bx玩AI ? 1810瀏覽 ? 0回復
使用測試時間訓練（TTT）生成一分鐘視頻

51CTO內容精選 ? 999瀏覽 ? 0回復
TTRL用“少數服從多數”解鎖大模型測試時強化學習新范式

arnoldzhw ? 1320瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

阿里開源VRAG-RL：定義下一代檢索增強生成 2025-06-16 07:56:18發布
RAG應用要如何吃到大模型長上下文的紅利？-LongRAG 2025-06-04 06:19:46發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： GraphRAG進化，效率翻倍！

下一篇：微軟LazyGraphRAG來了，700倍成本壓縮！

社區精華內容

目錄

主站蜘蛛池模板：亚洲影视在线 | 日本免费在线观看视频 | 欧美黑人巨大videos精品 | 青青草久久| 国产成年人小视频 | 99re| 午夜一区| 成人中文字幕av | 中文字幕精品一区二区三区在线 | 91高清在线观看 | 日本成人在线免费视频 | 欧美小视频在线观看 | 久久久国产一区二区三区 | 久久不卡 | 免费在线视频一区二区 | 99久久久久久99国产精品免 | 午夜寂寞影院列表 | 黄色a视频 | 久久久av | 久久久久国产一区二区三区四区 | 狠狠干网站 | 精品少妇一区二区三区在线播放 | 免费视频一区二区 | 日本精品一区二区三区视频 | 日韩精品在线观看视频 | 欧美一区免费 | 久久av资源网 | 日韩一区二区久久 | 日本精品视频在线 | 精品一区二区观看 | 国产精品毛片无码 | 男人av在线播放 | 日本三级播放 | 日本在线网站 | 日本不卡一区二区三区 | 欧美中文一区 | 成人欧美一区二区三区在线观看 | 国产黄色小视频在线观看 | 一级毛片观看 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 亚洲伊人久久综合 |

<sub id="ucalu"><tr id="ucalu"><ol id="ucalu"></ol></tr></sub>