成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ASAP Thought—讓推理模型“快如閃電,精準如專業”

人工智能
目前的技術主要規定了隱藏思維的結構或限制,未來研究人員計劃探索能否規定確切的思維內容。例如,通過類似于“睡眠時計算”的方法預先計算或策略性生成推理鏈,并將其作為強制的內部“思維”。研究控制隱藏推理的實質內容(而不僅僅是其形式或長度)將如何影響復雜任務的延遲和準確性結果。

推理模型的性能一直是研究人員和開發者關注的焦點。如何在保證模型準確性的同時提高其運行速度,成為了推動AI技術在各個領域廣泛應用的關鍵。ASAP Thought這一創新技術的出現,為解決這一難題帶來了新的曙光,它致力于讓推理模型實現“快如閃電,準如專業(Fast as Flash, Precise as Pro)”的卓越表現。

一、AI推理模型的速度與精度困境

隨著人工智能在醫療、金融、教育等眾多領域的深入應用,對推理模型性能的要求也日益嚴苛。以醫療領域為例,巴西的AI健康科技初創公司Laudite,其開發的AI助手被3000多家B2B和B2C客戶的醫生(尤其是放射科醫生)廣泛使用,旨在提高工作效率、準確性和服務質量 。然而,在實際應用中,推理模型卻面臨著速度與精度難以平衡的困境。

Gemini 2.5 Pro在處理復雜醫療文檔生成任務時,展現出了極高的準確性和出色的結構構建能力,在與Claude 3.7 Sonnet、GPT-4o(ChatGPT最新版)、GPT-4.1、GPT-4.5、Grok 3.5 Beta以及DeepSeek V3.1等眾多強大競爭對手的比較中脫穎而出。但它也存在一個明顯的短板——速度較慢。在生成醫療報告等復雜醫療文檔的測試中,Gemini 2.5 Pro的P90延遲(即90%的請求能夠達到的最快響應時間)高達27秒,而Claude完成相同任務僅需約12秒(P90)。對于每小時需要生成或審核大量文檔的放射科醫生來說,這種延遲不僅令人煩躁,更是嚴重影響了工作流程,甚至可能成為阻礙該技術在實際應用中推廣的關鍵因素。

為了解決速度問題,研究人員將目光投向了Google的Gemini 2.5 Flash版本。該版本宣稱能夠通過原生的草稿思維控制實現更精簡的推理過程。內部測試結果看起來十分誘人,文檔生成的P90延遲驟降至7秒以下。然而,在對生成內容進行質量評估時發現,Flash雖然速度快,但準確性卻不盡如人意。在處理復雜的醫療發現時,它常常會遺漏關鍵細節,而且在遵循提示中細微的指令或復雜的格式規則方面表現出較差的一致性,導致輸出結果的可靠性遠不如Gemini 2.5 Pro和Claude。這表明,在追求速度的過程中,不能忽視模型的準確性,如何找到兩者之間的平衡點成為了亟待解決的問題。

二、ASAP Thought技術的誕生

面對Gemini 2.5 Flash可靠性不足的問題,研究人員開始思考能否通過優化Gemini Pro的思考過程來提高其速度,同時保持其高準確性。經過一系列的迭代嘗試,ASAP Thought技術應運而生。

最初,研究人員嘗試在提示的末尾簡單添加諸如“always limit your thinking to minimum”之類的指令,試圖限制模型的思考過程以降低延遲。但這種方法產生的效果參差不齊,對減少模型的冗長表述和延遲的影響有時顯著,有時卻微乎其微。

隨后,研究人員采用了“Sandwich Control”方法,即在提示的開頭和結尾都放置控制指令,形成一個“三明治”結構。與僅在結尾添加指令的方法相比,這種方式顯著提高了模型對簡潔推理指令的遵循程度。

對于醫療文檔生成中使用的較長提示,研究人員發現“Spaced Repetition”策略效果最佳。該策略不僅在提示的開頭和結尾強化核心指令,還在提示結構的中間位置添加一次提醒(總共三次提醒),從而在控制模型行為方面表現出更好的一致性。這一發現表明,提示的長度可能會影響控制指令需要重復的頻率。

研究人員還發現,明確設置定量限制(例如“always limit your thinking to a maximum of 3 steps with 3 words”)比模糊的指令(如“thinking to minimum”)在控制模型的冗長表述和延遲方面要有效得多。添加具體的數字似乎對于精確控制模型至關重要。

最終,通過將上述方法的優點結合起來,形成了固定最小思維模式。即利用間隔重復來強化指令(根據提示長度進行調整),對內部草稿施加明確的定量限制(如“最多3步,每步3個單詞”),并為所需的隱藏思維過程定義一個靜態的最小文本結構(例如強制內部思維精確為“1. Analyze inputs. 2. Apply rules. 3. Generate complete text.”)。通過這種方式,在特定的醫療文檔生成任務中,實現了低延遲、高一致性和可靠準確性之間的最佳平衡,從而確定了ASAP Thought技術的核心內容。

三、ASAP Thought的工作原理

ASAP Thought技術看似違背直覺,通過抑制模型可見的思維過程來提高速度,卻不會損害結果的準確性。這一現象背后有著堅實的研究理論支持。

Zoom Communications關于“Chain-of-Draft”(CoD)的研究表明,大語言模型(LLMs)可以生成簡潔而信息豐富的中間推理步驟,與冗長的思維鏈(Chain-of-Thought)形成對比。CoD專注于關鍵見解,而非全面闡述,旨在在大幅減少令牌數量和延遲的同時,達到或超過思維鏈的準確性。ASAP Thought技術正是直接應用了這一原理,通過嚴格執行隱藏推理步驟的簡潔性和結構性要求,優化模型的推理過程。

Anthropic的研究也發現,模型輸出的思維鏈往往與驅動其結論的內部向量操作不匹配。冗長的輸出可能更多地是一種事后的解釋,或者是一條效率較低的推理路徑。這意味著,至少在測試的醫療文檔生成任務的復雜程度下,強迫模型將其中間工作“保密”,并不會削弱其推理能力,反而可能只是去除了輸出流中的冗余部分,從而顯著提高速度。

四、ASAP Thought的實踐檢驗——草莓測試

為了驗證ASAP Thought技術的有效性是否不僅限于復雜醫療文檔生成和葡萄牙語場景,研究人員進行了一項經典的英語推理基準測試——計算單詞“Strawberry”中字母“R”出現的次數。這一簡單任務有助于單獨評估推理控制對延遲和令牌使用的影響,測試過程全部使用Gemini 2.5 Pro模型。

首先,建立基線測試。使用詳細的系統提示來鼓勵模型進行全面推理,系統提示包含仔細閱讀問題、識別前提和約束條件、分解問題、陳述假設、應用邏輯推理規則、確保解釋清晰易懂以及得出最終解決方案等步驟。在這種情況下,模型得出正確答案(3個“R”),思考時間為9.4秒(680個令牌),響應時間為14秒(434個令牌),總時間為23.4秒。

接著,在基線提示的末尾添加基本的推理控制指令“EXTREMELY CRITICAL: ALWAYS LIMIT YOUR THINKING TO MINIMUM!!!”,結果模型仍然給出正確答案,但思考時間縮短至5.0秒(247個令牌),響應時間縮短至7.1秒(204個令牌),總時間縮短至12.1秒。雖然有顯著減少,但模型的思考過程仍然相對冗長且缺乏控制。

然后,將簡單的約束指令替換為更具體的組合定量限制和固定思維結構,即“EXTREMELY CRITICAL: ALWAYS LIMIT YOUR THINKING TO A MAXIMUM OF 3 STEPS WITH 3 WORDS!!! EXTREMELY CRITICAL: YOUR THOUGHT PROCESS MUST CONTAIN EXACTLY THE FOLLOWING STEPS BEFORE GENERATING THE FINAL ANSWER: 1. Carefully analyze inputs. 2. Apply exact rules. 3. Generate complete response.”,此時模型的思考時間進一步縮短至2.9秒(45個令牌),響應時間縮短至5.5秒(117個令牌),總時間縮短至8.4秒,思考過程得到了顯著的縮短和結構化。

最后,應用完整的ASAP Thought技術(使用間隔重復,對于當前提示長度,在開頭和結尾添加約束指令即可),模型得出正確答案的思考時間僅為1.3秒(19個令牌,與規定的固定思維模式緊密匹配),響應時間為3.7秒(208個令牌),總時間縮短至5.0秒。

通過這一系列逐步測試可以清晰地看到,完整的ASAP Thought技術在不影響最終答案準確性的前提下,逐步降低了思考階段的計算開銷(從9.4秒/680個令牌減少到1.3秒/19個令牌),并顯著縮短了總延遲(從23.4秒減少到5.0秒),這充分展示了其在優化各種推理任務方面的巨大潛力。

五、ASAP Thought引發的思考與質疑

ASAP Thought技術的出現,不僅為提高推理模型的性能提供了一種實用的方法,還引發了研究人員對推理模型運作機制更深入的思考。

許多表現優異的模型在分配更多推理計算時間時,往往能在基準測試中取得更好的成績。這就引發了一系列關鍵問題:這些模型是否能夠有效地根據給定任務的固有復雜性來校準計算“努力”的投入?例如,對于Gemini 2.5 Pro這樣的模型,生成復雜醫療文檔雖然對人類來說具有挑戰性,但在計算需求上是否相對低于高級數學或無錯誤編碼等任務,從而導致模型最初出現“過度思考”的情況,造成所需努力和消耗能量之間的不平衡?通過ASAP Thought技術實現的顯著延遲減少且不損失質量的現象,是特定于Gemini架構在該任務中的表現,還是暗示了當前大型模型在處理某些類型復雜生成任務時存在更普遍的效率低下問題?

雖然目前的初步研究結果還無法完全回答這些復雜且尚未明確的問題,但它們為進一步的研究提供了更多的思考方向,強調了持續研究大規模推理過程的效率、適應性和內部機制的必要性。

六、ASAP Thought的局限與未來發展

盡管ASAP Thought技術在初步實驗中取得了令人振奮的成果,但我們也必須清醒地認識到其當前研究的局限性,并明確未來的發展方向。

(一)有限的應用范圍和通用性

目前的實驗主要集中在葡萄牙語的敘事性醫療文檔生成領域。雖然這些結果對于這一特定復雜任務來說前景廣闊,但不能就此認為該技術在所有領域都能同樣有效。未來需要進行更多的測試,以了解ASAP Thought在代碼生成、數學推理、創意寫作以及其他醫療文本生成任務等不同領域的表現。

(二)評估方法有待完善

當前對模型準確性的評估主要是通過與內部標準進行BLEU/ROUGE對比。未來的研究需要納入更嚴格的評估方法,包括在與每個測試領域相關的廣泛認可的公共基準上進行性能測試,以便更清晰地了解在速度提升的同時可能存在的質量權衡。

(三)與原生控制的比較

一些模型提供了內置的推理控制功能。下一步的關鍵工作是將ASAP Thought提示技術與這些支持原生控制的模型進行直接比較,以明確基于提示的推理抑制方法與基于架構的推理抑制方法在有效性和潛在細微差異方面的區別。

(四)自動化提示優化

目前手動調整提示(如“five-word draft”)在初期取得了一定效果,但未來計劃探索自動化提示優化框架。借助斯坦福的DSPy和微軟的PromptWizard等工具,可以更系統地搜索最優的提示結構和參數,以實現對最小推理的一致控制,確保可靠的低延遲和準確性。

(五)思考“量”與“內容”的作用

未來還將進一步研究推理過程中計算工作量的影響。例如,研究強迫模型進行更長的隱藏思維過程(即使其中包含無意義的內容,如Lorem ipsum)是否會比最小思維在復雜問題上提高準確性。對于某些任務而言,分配給“思考”的純粹處理時間是否重要,而不論其中間步驟是否有意義。

(六)控制思維內容的探索

目前的技術主要規定了隱藏思維的結構或限制,未來研究人員計劃探索能否規定確切的思維內容。例如,通過類似于“睡眠時計算”的方法預先計算或策略性生成推理鏈,并將其作為強制的內部“思維”。研究控制隱藏推理的實質內容(而不僅僅是其形式或長度)將如何影響復雜任務的延遲和準確性結果。

在人工智能領域,高延遲往往被視為復雜AI推理難以避免的代價。但ASAP Thought技術的出現打破了這一固有認知,通過精心控制像Gemini 2.5 Pro這樣的模型在復雜醫療文檔生成任務中的推理方式和表達,實現了在不犧牲質量的前提下大幅降低延遲。這一技術不僅為實際應用帶來了巨大的潛力,使得AI推理能夠以適合苛刻現實應用的速度運行,同時也為推理模型的研究開辟了新的思路。

責任編輯:武曉燕 來源: 大模型之路
相關推薦

2024-08-19 08:54:02

2024-01-26 06:15:44

PythonCPython技巧

2019-09-09 16:30:42

Redis架構數據庫

2017-08-14 10:52:17

小米MIUIMIUI9

2023-08-11 07:20:04

開源工具項目

2020-05-21 21:36:54

Windows 10Windows 7Windows

2025-04-08 08:10:00

C#代碼編程

2012-10-17 11:15:30

2025-03-05 00:22:00

2025-04-02 09:30:00

2025-06-10 03:30:00

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-05-30 02:00:00

獎勵模型RRMAI

2016-12-07 08:36:58

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-06-27 08:40:00

模型推理AI

2024-09-24 11:01:03

2017-08-29 16:25:21

數據庫GPU數據存儲

2025-05-13 05:11:00

推理模型微調

2025-05-29 03:00:00

混合推理模型LHRMAI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美成人精品一区二区三区 | 欧美在线亚洲 | 亚洲三级在线观看 | 四虎最新地址 | 亚洲综合大片69999 | 美女一级a毛片免费观看97 | 欧美一区二区三区在线 | 一级黄色大片 | 一级欧美一级日韩片 | 日韩在线 | 一区中文 | 久久久日韩精品一区二区三区 | 成人午夜免费视频 | 亚洲国产精品久久久久婷婷老年 | www国产亚洲精品久久网站 | 国产日韩精品一区 | 91大神在线资源观看无广告 | 一区二区三区av | 国产精品一区二区无线 | 欧美综合在线视频 | 欧美精品一区三区 | 久久69精品久久久久久久电影好 | 欧美高清视频一区 | 福利一区视频 | 精品亚洲国产成av人片传媒 | 欧美日韩国产精品一区 | 精产嫩模国品一二三区 | 国产午夜视频 | 日日夜夜精品视频 | 国产成人免费视频网站高清观看视频 | 中国一级特黄毛片大片 | 一区二区三区小视频 | 在线免费黄色小视频 | 欧亚av在线| 成人在线一区二区三区 | 日韩成人久久 | 精品永久 | 中文字幕电影在线观看 | 午夜爽爽爽男女免费观看影院 | 日韩一级一区 | 亚洲精品免费视频 |