【LLM合集】讓AI別'杠精式'思考！三招讓大模型能力翻倍

發布于 2025-6-18 06:58

瀏覽

0收藏

1. Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

【LLM合集】讓AI別'杠精式'思考！三招讓大模型能力翻倍-AI.x社區

現在的大模型確實很厲害，尤其是在處理復雜任務時。最近像 OpenAI 的 o1 和 DeepSeek-R1 這些大推理模型，通過監督微調加強化學習的方法，把那種一步一步的推理能力（也就是 CoT）提升了不少。不過這里有個矛盾點 —— 雖然更長的推理鏈條能提高準確率，但也會因為輸出太啰嗦、重復而增加計算成本，我們管這個叫 "過度思考" 問題。

最近我們團隊做了個系統的研究綜述，把現有的高效推理方法分成了三類：第一類是從模型本身入手，要么把大模型優化得更簡潔，要么直接訓練輕量級的推理模型；第二類是動態控制推理過程，比如在中間步驟就提前終止或者精簡輸出；第三類則是根據輸入問題的難度，智能調整提示策略來提高效率。

論文: ??https://arxiv.org/pdf/2503.16419??

2. One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

【LLM合集】讓AI別'杠精式'思考！三招讓大模型能力翻倍-AI.x社區

擴散模型雖然能生成超清晰的圖像，但跑起來實在太費顯卡了。現有的加速方法里，像 SinSR 這種雖然快，但生成的細節總感覺有點假；而 OSEDiff 雖然更真實，可有時候會莫名其妙多出一些不存在的結構。

為了解決這個問題，我們團隊搞了個叫 RSD 的新方法。簡單來說就是讓一個小模型（學生）去模仿大模型（老師）的輸出。不過不是直接復制結果，而是訓練它生成一種特殊的殘差信號，這樣小模型一步就能恢復出高清圖，效果還比老師模型更好。

跟之前的 SinSR 比起來，RSD 的蒸餾方式明顯更聰明。在和其他基于擴散的 SOTA 方法對比時，我們的模型不僅生成的圖像更貼近原始低清圖，而且用的顯存和參數都更少。我們在 RealSR、ImageNet 這些常見數據集上做了測試，結果都挺讓人驚喜的，尤其是在真實場景的圖片上表現特別穩定。

論文: ??https://arxiv.org/pdf/2503.13358??

3. Unleashing Vecset Diffusion Model for Fast Shape Generation

【LLM合集】讓AI別'杠精式'思考！三招讓大模型能力翻倍-AI.x社區

最近 3D 形狀生成領域挺熱鬧的，尤其是 VDM 模型出來后，大家用原生 3D 擴散技術能生成特別精細的模型。不過這技術有個大問題 —— 生成速度太慢了。雖然現在有些方法能提高分辨率，但 VDM 在快速生成這塊還是不太靈光。這主要是因為擴散采樣本身就慢，再加上 VAE 解碼效率低，這兩個地方之前都沒被好好優化過。

我們團隊這次搞了個叫 FlashVDM 的框架，專門解決這兩個卡點。對于擴散采樣部分，我們用了新的漸進式流蒸餾技術，讓模型只需要 5 步就能生成質量差不多的結果。而 VAE 部分更絕，我們設計了一個輕量級的 vecset 解碼器，用自適應 KV 選擇和層次化體積解碼，就像把地圖分成不同區域快速讀取一樣，大幅減少了計算量。

把這套方案用在 Hunyuan3D-2 上，得到的 Hunyuan3D-2 Turbo 效果特別明顯。測試顯示，重建任務的速度提升了 45 倍，生成任務也快了 32 倍，而且質量還能和頂尖方法掰手腕。代碼和模型都開源了，大家感興趣可以去 GitHub 看看。

論文: ??https://arxiv.org/pdf/2503.16302??