【LLM合集】讓AI別'杠精式'思考!三招讓大模型能力翻倍
1. Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
現在的大模型確實很厲害,尤其是在處理復雜任務時。最近像 OpenAI 的 o1 和 DeepSeek-R1 這些大推理模型,通過監督微調加強化學習的方法,把那種一步一步的推理能力(也就是 CoT)提升了不少。不過這里有個矛盾點 —— 雖然更長的推理鏈條能提高準確率,但也會因為輸出太啰嗦、重復而增加計算成本,我們管這個叫 "過度思考" 問題。
最近我們團隊做了個系統的研究綜述,把現有的高效推理方法分成了三類:第一類是從模型本身入手,要么把大模型優化得更簡潔,要么直接訓練輕量級的推理模型;第二類是動態控制推理過程,比如在中間步驟就提前終止或者精簡輸出;第三類則是根據輸入問題的難度,智能調整提示策略來提高效率。
論文: ??https://arxiv.org/pdf/2503.16419??
2. One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation
擴散模型雖然能生成超清晰的圖像,但跑起來實在太費顯卡了。現有的加速方法里,像 SinSR 這種雖然快,但生成的細節總感覺有點假;而 OSEDiff 雖然更真實,可有時候會莫名其妙多出一些不存在的結構。
為了解決這個問題,我們團隊搞了個叫 RSD 的新方法。簡單來說就是讓一個小模型(學生)去模仿大模型(老師)的輸出。不過不是直接復制結果,而是訓練它生成一種特殊的殘差信號,這樣小模型一步就能恢復出高清圖,效果還比老師模型更好。
跟之前的 SinSR 比起來,RSD 的蒸餾方式明顯更聰明。在和其他基于擴散的 SOTA 方法對比時,我們的模型不僅生成的圖像更貼近原始低清圖,而且用的顯存和參數都更少。我們在 RealSR、ImageNet 這些常見數據集上做了測試,結果都挺讓人驚喜的,尤其是在真實場景的圖片上表現特別穩定。
論文: ??https://arxiv.org/pdf/2503.13358??
3. Unleashing Vecset Diffusion Model for Fast Shape Generation
最近 3D 形狀生成領域挺熱鬧的,尤其是 VDM 模型出來后,大家用原生 3D 擴散技術能生成特別精細的模型。不過這技術有個大問題 —— 生成速度太慢了。雖然現在有些方法能提高分辨率,但 VDM 在快速生成這塊還是不太靈光。這主要是因為擴散采樣本身就慢,再加上 VAE 解碼效率低,這兩個地方之前都沒被好好優化過。
我們團隊這次搞了個叫 FlashVDM 的框架,專門解決這兩個卡點。對于擴散采樣部分,我們用了新的漸進式流蒸餾技術,讓模型只需要 5 步就能生成質量差不多的結果。而 VAE 部分更絕,我們設計了一個輕量級的 vecset 解碼器,用自適應 KV 選擇和層次化體積解碼,就像把地圖分成不同區域快速讀取一樣,大幅減少了計算量。
把這套方案用在 Hunyuan3D-2 上,得到的 Hunyuan3D-2 Turbo 效果特別明顯。測試顯示,重建任務的速度提升了 45 倍,生成任務也快了 32 倍,而且質量還能和頂尖方法掰手腕。代碼和模型都開源了,大家感興趣可以去 GitHub 看看。
論文: ??https://arxiv.org/pdf/2503.16302??
4. Scale-wise Distillation of Diffusion Models
最近我們團隊開發了一個叫 SwD 的新框架,專門用來優化擴散模型的生成效率。簡單來說,就是讓模型像搭積木一樣,先從低分辨率圖像開始生成,然后每一步慢慢放大細節。這樣做既能保持生成質量,又能省不少計算資源。
這個想法其實來自一個挺有意思的發現 —— 擴散模型的生成過程和隱式譜自回歸有點像。我們就想,能不能把現有的蒸餾方法和這種分階段生成結合起來呢?于是 SwD 誕生了,它不僅能兼容現有的分布匹配技術,還加了個新的補丁損失函數,就像拼圖游戲一樣要求局部區域更精準地匹配。
我們在文本生成圖像的模型上做了測試,結果挺驚喜的。用 SwD 之后,生成速度接近直接生成兩次高清圖,但效果卻比同類方法好很多。不管是用自動指標評測,還是讓人來打分,SwD 都表現得更出色。這說明我們的方法在保證速度的同時,還能提升生成質量。
論文: ???https://arxiv.org/pdf/2503.16397??
本文轉載自???AI-PaperDaily???,作者:AI-PaperDaily
