AdaptThink：推理模型的自適應(yīng)思考范式

作者：肆零柒 2025-05-28 02:40:00

AdaptThink 能讓模型根據(jù)問題的難易程度，自動(dòng)選擇是否進(jìn)行深度思考，從而在保持高準(zhǔn)確率的同時(shí)，大幅降低推理成本。

大家好，我是肆〇柒。我前幾天就看到這么一篇論文關(guān)于 AdaptThink。它主要講的是如何通過強(qiáng)化學(xué)習(xí)，來實(shí)現(xiàn)Reason Model（推理模型如o1,R1）根據(jù)問題難度自適應(yīng)選擇思考模式（思考或不思考），以優(yōu)化推理質(zhì)量和效率的平衡。也就是快思考和慢思考的模型自適應(yīng)。這篇論文讓我關(guān)注到它的原因在于，它所提出來的研究范圍，剛好是我曾經(jīng)的又一個(gè)預(yù)判。（我猜我一定不會(huì)是獨(dú)家）

因?yàn)?AI 可以自適應(yīng)快慢思考系統(tǒng)，并且可以自己定義思考預(yù)算（實(shí)現(xiàn)思考長(zhǎng)短分級(jí)），這才是接近人類思考的樣子，這也理應(yīng)是技術(shù)應(yīng)該進(jìn)化發(fā)展的方向。可以假設(shè)一下，當(dāng)面對(duì)一個(gè)簡(jiǎn)單的數(shù)學(xué)問題時(shí)，傳統(tǒng)模型可能會(huì)花費(fèi)大量時(shí)間進(jìn)行不必要的思考，而 AdaptThink 能夠迅速判斷問題的難度，并直接給出簡(jiǎn)潔的答案。這種智能的自適應(yīng)機(jī)制，不僅節(jié)省了計(jì)算資源，還為用戶帶來了更高效、更精準(zhǔn)的體驗(yàn)。接下來，我們一起了解一下 AdaptThink 的原理。

在 AI 領(lǐng)域，大型推理模型（如 OpenAI o1、DeepSeekR1 等）通過模擬人類的深度思考，在解決復(fù)雜任務(wù)時(shí)取得了顯著成果。然而，這一 lengthy thinking process 也帶來了推理開銷大幅增加的問題，成為效率提升的關(guān)鍵瓶頸。尤其是在處理簡(jiǎn)單任務(wù)時(shí)，模型生成過多冗余思考步驟，導(dǎo)致用戶體驗(yàn)不佳。例如，傳統(tǒng)推理模型面對(duì)一個(gè)簡(jiǎn)單的加法問題，可能會(huì)花費(fèi)數(shù)百個(gè) token 進(jìn)行反復(fù)的思考探索，而 AdaptThink 能迅速判斷其簡(jiǎn)單性，直接輸出簡(jiǎn)潔的最終答案，節(jié)省大量計(jì)算資源和時(shí)間，為用戶提供了一個(gè)高效精準(zhǔn)的解決方案。

為解決這一問題，AdaptThink，作為一種新的強(qiáng)化學(xué)習(xí)（RL）思路，可使推理模型依據(jù)問題難度自適應(yīng)選擇 optimal thinking mode，平衡推理質(zhì)量和效率。

AdaptThink 使模型能夠根據(jù)問題難度自適應(yīng)地選擇思考模式或非思考模式，從而提高推理效率，同時(shí)進(jìn)一步提升整體性能

研究背景與動(dòng)機(jī)

NoThinking 方法的提出為這一困境提供了新的解決思路。該方法通過 prompt 為空的思考片段（即 “<think></think>”）讓推理模型跳過思考過程，直接生成最終解決方案。研究表明，在相對(duì)簡(jiǎn)單問題（如高中競(jìng)賽水平及以下）上，NoThinking 的性能與 Thinking 模式相當(dāng)甚至更優(yōu)，且能顯著減少 token 使用量。只有在問題足夠難時(shí)，Thinking 的優(yōu)勢(shì)才會(huì)凸顯。

NoThinking 方法的簡(jiǎn)化主要體現(xiàn)在 prompt 的設(shè)計(jì)上。傳統(tǒng)的 NoThinking 方法通過一個(gè)固定的 prompt “Okay, I think I have finished thinking.</think>” 來引導(dǎo)模型跳過思考過程。然而，這種 prompt 在實(shí)際應(yīng)用中可能會(huì)帶來一定的局限性，例如在不同語言或領(lǐng)域的問題中可能需要額外的適配。

為此，研究者們提出了一種更加簡(jiǎn)潔和通用的 prompt 設(shè)計(jì)，即使用一個(gè)空的思考片段 “<think></think>”。這種簡(jiǎn)化后的 prompt 不僅減少了對(duì)特定語言和領(lǐng)域的依賴，還提高了模型的通用性和適應(yīng)性。通過實(shí)驗(yàn)驗(yàn)證，簡(jiǎn)化后的 NoThinking 方法在保持性能優(yōu)勢(shì)的同時(shí)，進(jìn)一步降低了 token 使用量，提高了推理效率。

基于這一發(fā)現(xiàn)，研究者們提出了關(guān)鍵問題：能否讓推理模型基于輸入問題的難度，自適應(yīng)選擇 Thinking 或 NoThinking 模式，以實(shí)現(xiàn)更高效的推理且不犧牲甚至提升性能？從而引出了 AdaptThink 算法。

AdaptThink 算法探索

約束優(yōu)化目標(biāo)

AdaptThink 的核心目標(biāo)是鼓勵(lì)模型選擇 NoThinking 模式，同時(shí)確保整體性能不降低。具體而言，給定一個(gè)推理模型 πθ 和數(shù)據(jù)集 D，以及一個(gè)參考模型 πθref（初始 πθ，訓(xùn)練過程中保持不變），定義獎(jiǎng)勵(lì)函數(shù) R(x, y, y? ) 衡量模型響應(yīng) y 的正確性（對(duì)于數(shù)學(xué)問題求解，R(x, y) 返回 0/1 表示 y 錯(cuò)誤 / 正確）。引入指示函數(shù) 1(y1 =</think>) 判斷 y 是否為 NoThinking 響應(yīng)（即首個(gè) token 為 </think>）。

重要性采樣策略

在 on-policy training 初始階段，模型 πθ 自然地對(duì)所有問題應(yīng)用 Thinking 模式，導(dǎo)致無法從 πθold 采樣到 NoThinking 樣本。為解決這一冷啟動(dòng)挑戰(zhàn)，AdaptThink 引入重要性采樣技術(shù)，定義新的分布 πIS(·|x)：

其中，wstart 為開始 long thinking 的常用詞（如 “Alright”）。訓(xùn)練時(shí)，從 πIS(·|x) 采樣響應(yīng)，使得每個(gè) batch 中一半樣本為 Thinking 模式，另一半為 NoThinking 模式。這使模型從訓(xùn)練伊始就能學(xué)習(xí)兩種模式，并在整個(gè)訓(xùn)練過程中保持探索和利用兩種思考模式的機(jī)會(huì)，避免模型過早固定于單一模式。

算法流程總結(jié)

AdaptThink 算法的整體流程如下（參考 Algorithm 1）：

**Algorithm 1 AdaptThink**

Input: policy model πθ; dataset D; hyperparameters K, δ, ?
Initialize: reference model πθref ← πθ
1: Sample K responses {y′i}K i=1 ～ πθref(·|x) and calculate ˉRref(x) for each x ∈ D (Equation 5)
2: for step = 1, . . . , M do
3: Update the old policy model πθold ← πθ and importance sampling distribution πIS (Equation 8)
4: Sample a batch Db from D
5: Sample K responses {yi}K i=1 ～ πIS(·|x) for each x ∈ Db and estimate LAT(θ) (Equation 9. Half of yi are Thinking responses and the other half are NoThinking responses.)
6: Update the policy model πθ by minimizing LAT(θ)
7: end for

Output: πθ

以上偽算法釋義如下：

算法 1 AdaptThink輸入：策略模型 πθ；數(shù)據(jù)集 D；超參數(shù) K, δ, ?初始化：參考模型 πθref ← πθ1: 對(duì)每個(gè) x ∈ D，采樣 K 個(gè)響應(yīng) {y′i}K i=1 ～ πθref(·|x)，計(jì)算 Rref(x)（公式 5）2: for step = 1, ..., M do3: 更新舊策略模型 πθold ← πθ，更新重要性采樣分布 πIS（公式 8）4: 從 D 中采樣一批 Db5: 對(duì)每個(gè) x ∈ Db，從 πIS(·|x) 采樣 K 個(gè)響應(yīng) {yi}K i=1，估計(jì) LAT(θ)（公式 9，其中一半 yi 為 Thinking 響應(yīng)，另一半為 NoThinking 響應(yīng)）6: 通過最小化 LAT(θ) 更新策略模型 πθ7: end for

輸出：πθ

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)選用 DeepSeek-R1-Distill-Qwen1.5B 和 DeepSeek-R1-Distill-Qwen-7B 作為初始策略模型。訓(xùn)練數(shù)據(jù)集為 DeepScaleR，包含 40K 道數(shù)學(xué)題，涵蓋 AIME 1983-2023、AMC、Omni-Math 和 STILL 數(shù)據(jù)集。評(píng)估使用的三個(gè)數(shù)學(xué)數(shù)據(jù)集 GSM8K（1319 道小學(xué)數(shù)學(xué)題）、MATH500（500 道高中競(jìng)賽數(shù)學(xué)題）和 AIME2024（30 道奧林匹克數(shù)學(xué)題）難度遞進(jìn)。評(píng)估指標(biāo)包括準(zhǔn)確率（accuracy）和響應(yīng)長(zhǎng)度（response length），并報(bào)告所有測(cè)試數(shù)據(jù)集上的平均準(zhǔn)確率變化和平均長(zhǎng)度減少率。

實(shí)驗(yàn)基于 VeRL 框架實(shí)現(xiàn)，訓(xùn)練上下文大小、批次大小、學(xué)習(xí)率等參數(shù)分別設(shè)置為 16K、128 和 2e-6。超參數(shù) K、δ、? 分別設(shè)為 16、0.05 和 0.2。為公平比較，所有基線方法均使用 DeepScaleR 數(shù)據(jù)集重新實(shí)現(xiàn)。

基線方法對(duì)比

與 AdaptThink 對(duì)比的基線方法包括 DPOShortest、OverThink、DAST、O1-Pruner、TLMRE、ModelMerging 和 RFTMixThinking 等。每種方法的核心思想如下：

DPOShortest：通過采樣多個(gè)響應(yīng)，配對(duì)最短正確響應(yīng)和最長(zhǎng)響應(yīng)，使用 DPO 算法微調(diào)模型。
OverThink：以原始長(zhǎng)思考響應(yīng)為負(fù)例，保留思考中首次正確解答的前兩次嘗試為正例，使用 SimPO 算法微調(diào)模型。
DAST：通過基于長(zhǎng)度的獎(jiǎng)勵(lì)函數(shù)對(duì)預(yù)采樣響應(yīng)排序，使用 SimPO 算法微調(diào)模型。
O1-Pruner：預(yù)采樣估計(jì)參考模型性能，使用離策略 RL 式微調(diào)，在準(zhǔn)確率約束下鼓勵(lì)模型生成更短推理過程。
TLMRE：在 on-policy RL 中引入基于長(zhǎng)度的懲罰項(xiàng)，激勵(lì)模型生成更短響應(yīng)。
ModelMerging：通過加權(quán)平均推理模型與非推理模型的權(quán)重，減少推理模型的響應(yīng)長(zhǎng)度。
RFTMixThinking：對(duì)每個(gè)訓(xùn)練問題 x，分別以 Thinking 和 NoThinking 采樣多個(gè)響應(yīng)，選擇正確 NoThinking 響應(yīng)（若其實(shí)例級(jí)通過率 ≥ Thinking）或正確 Thinking 響應(yīng)，用這些響應(yīng)微調(diào)模型。

主要實(shí)驗(yàn)結(jié)果

下表展示了不同方法在 GSM8K、MATH500 和 AIME2024 數(shù)據(jù)集上的準(zhǔn)確率、響應(yīng)長(zhǎng)度以及 NoThinking 響應(yīng)占比等關(guān)鍵指標(biāo)結(jié)果。AdaptThink 在降低推理成本和提升模型性能方面表現(xiàn)突出，相比原始模型和其他基線方法具有明顯優(yōu)勢(shì)。

以 DeepSeek-R1-Distill-Qwen-1.5B 為例，AdaptThink 將平均響應(yīng)長(zhǎng)度降低了 53.0%，同時(shí)平均準(zhǔn)確率提升了 2.4%。在 GSM8K 數(shù)據(jù)集上，AdaptThink 的準(zhǔn)確率達(dá)到 83.1%，響應(yīng)長(zhǎng)度縮短至 480，NoThinking 響應(yīng)占比達(dá) 86.9%；在 MATH500 數(shù)據(jù)集上，準(zhǔn)確率為 82.0%，響應(yīng)長(zhǎng)度 1782，NoThinking 響應(yīng)占比 76.8%；在 AIME2024 數(shù)據(jù)集上，準(zhǔn)確率為 31.0%，響應(yīng)長(zhǎng)度 6679，NoThinking 響應(yīng)占比 40.4%。

對(duì)于 DeepSeek-R1-Distill-Qwen-7B，AdaptThink 同樣表現(xiàn)出色，平均響應(yīng)長(zhǎng)度降低了 40.1%，平均準(zhǔn)確率提升了 2.3%。在 GSM8K 數(shù)據(jù)集上，準(zhǔn)確率 91.0%，響應(yīng)長(zhǎng)度 309，NoThinking 響應(yīng)占比 99.6%；在 MATH500 數(shù)據(jù)集上，準(zhǔn)確率 92.0%，響應(yīng)長(zhǎng)度 1875，NoThinking 響應(yīng)占比 76.6%；在 AIME2024 數(shù)據(jù)集上，準(zhǔn)確率 55.6%，響應(yīng)長(zhǎng)度 8599，NoThinking 響應(yīng)占比 6.3%。

AdaptThink 在簡(jiǎn)單數(shù)據(jù)集（如 GSM8K 和 MATH500）中生成更多 NoThinking 響應(yīng)，而在挑戰(zhàn)性數(shù)據(jù)集（如 AIME2024）中更多使用 Thinking 模式，且在大多數(shù)難度級(jí)別上一致性地取得更高準(zhǔn)確率，論證了其自適應(yīng)選擇思考模式的有效性。

使用“思考模式”和“無思考模式”對(duì)DeepSeek-R1-Distill-Qwen-7B在MATH500數(shù)據(jù)集不同難度級(jí)別上的比較

AdaptThink-7B在不同數(shù)學(xué)水平下選擇思考或不思考的比例

不同數(shù)學(xué)水平下，使用“思考”和“不思考”模式時(shí)AdaptThink-7B與DeepSeek-R1-Distill-Qwen-7B的準(zhǔn)確率比較

AdaptThink 在不同難度級(jí)別問題上的性能差異主要源于其自適應(yīng)選擇 thinking 模式的能力。對(duì)于簡(jiǎn)單問題，模型傾向于選擇 NoThinking 模式以節(jié)省推理資源；而對(duì)于復(fù)雜問題，模型則會(huì)自動(dòng)切換到 Thinking 模式以確保準(zhǔn)確性。這種自適應(yīng)機(jī)制使得 AdaptThink 能夠在不同的問題難度上實(shí)現(xiàn)最優(yōu)的推理效率和性能平衡。

對(duì)于簡(jiǎn)單問題，NoThinking 模式的優(yōu)勢(shì)在于其能夠直接跳過冗長(zhǎng)的思考過程，快速生成簡(jiǎn)潔的最終答案。這得益于模型在訓(xùn)練過程中對(duì)簡(jiǎn)單問題特征的學(xué)習(xí)和識(shí)別，使其能夠在早期階段就確定問題的難度并選擇合適的推理策略。而對(duì)于復(fù)雜問題，Thinking 模式則通過多步推理和探索，逐步逼近正確答案，從而保證了模型的準(zhǔn)確性。

Model	RatioIT	Length
DeepSeek-R1-Distill-Qwen-1.5B	8.2%	665
AdaptThink-1.5B	7.9%	826
DeepSeek-R1-Distill-Qwen-7B	0.9%	341
AdaptThink-7B	4.2%	426

Method	MMLU Acc	MMLU Length	MMLU RatioNT
DeepSeek-R1-Distill-Qwen-1.5B	35.7	1724	0.00%
OriginalNoThinking	20.6	208	100.00%
AdaptThink	42.2	1055	16.43%

開源倉庫介紹

為了幫助讀者更好地理解和使用 AdaptThink 算法，研究者們將其代碼和相關(guān)資源開源在 GitHub 上。開源倉庫提供了完整的實(shí)現(xiàn)細(xì)節(jié)，包括訓(xùn)練代碼、預(yù)處理腳本、模型配置文件、評(píng)估腳本以及一些示例用例。以下是開源倉庫的主要內(nèi)容和使用指南：

開源倉庫地址：見文末參考資料。https://github.com/THU-KEG/AdaptThink

倉庫內(nèi)容

訓(xùn)練代碼：基于 VeRL 框架實(shí)現(xiàn)的 AdaptThink 訓(xùn)練代碼，支持單機(jī)和多機(jī)訓(xùn)練，方便用戶根據(jù)自己的硬件配置進(jìn)行選擇。
預(yù)處理腳本：用于處理訓(xùn)練和測(cè)試數(shù)據(jù)集的腳本，包括數(shù)據(jù)格式轉(zhuǎn)換和預(yù)采樣等操作，確保數(shù)據(jù)集符合模型輸入要求。
模型配置：包含不同模型的配置文件，如 DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeek-R1-Distill-Qwen-7B 的訓(xùn)練參數(shù)和超參數(shù)設(shè)置，用戶可以根據(jù)自己的需求進(jìn)行調(diào)整。
評(píng)估腳本：用于評(píng)估模型性能的腳本，支持在不同數(shù)據(jù)集上的準(zhǔn)確率和響應(yīng)長(zhǎng)度測(cè)試，幫助用戶全面了解模型表現(xiàn)。
案例展示：提供了一些簡(jiǎn)單的使用示例，展示如何加載模型、生成推理結(jié)果以及評(píng)估模型性能，方便新手快速上手。

使用指南

1. 環(huán)境配置：使用 vLLM 0.8.2 和 Python 3.10 創(chuàng)建虛擬環(huán)境，并安裝相關(guān)依賴庫。具體步驟如下：

conda create -n adapt_think pythnotallow=3.10
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

2. 數(shù)據(jù)準(zhǔn)備：下載并預(yù)處理訓(xùn)練和測(cè)試數(shù)據(jù)集，確保數(shù)據(jù)格式符合要求。可以使用倉庫中提供的預(yù)處理腳本進(jìn)行數(shù)據(jù)處理：

bash scripts/preprocess_dataset.sh

3. 模型訓(xùn)練：運(yùn)行訓(xùn)練腳本，根據(jù)需要調(diào)整超參數(shù)和訓(xùn)練配置。例如，訓(xùn)練 1.5B 模型的命令如下：

bash scripts/run_adapt_think_1.5b_deepscaler_16k_delta0.05_btz128_lr2e-6.sh

4. 模型評(píng)估：使用評(píng)估腳本測(cè)試模型性能，生成詳細(xì)的評(píng)估報(bào)告。可以使用以下命令將訓(xùn)練好的模型轉(zhuǎn)換為 HuggingFace 格式并進(jìn)行評(píng)估：

# 轉(zhuǎn)換為 HuggingFace 格式
bash scripts/convert_to_hf.sh

# 評(píng)估模型
bash scripts/run_eval_verl_hf.sh

5. 案例運(yùn)行：參考案例展示，嘗試不同的輸入問題，觀察模型的推理過程和結(jié)果。這有助于用戶更好地理解 AdaptThink 的工作原理和實(shí)際效果。

開源倉庫不僅提供了完整的代碼實(shí)現(xiàn)，還通過詳細(xì)的文檔和示例幫助用戶快速上手。無論是研究人員還是開發(fā)者，都可以利用這些資源進(jìn)行進(jìn)一步的研究和開發(fā)工作。

實(shí)際應(yīng)用場(chǎng)景和落地挑戰(zhàn)

雖然 AdaptThink 在實(shí)驗(yàn)中展現(xiàn)出了顯著的優(yōu)勢(shì)，但在實(shí)際應(yīng)用場(chǎng)景中仍面臨一些挑戰(zhàn)。以下是一些常見的實(shí)際應(yīng)用場(chǎng)景以及可能遇到的落地挑戰(zhàn)和相應(yīng)的解決方案：

自動(dòng)問答系統(tǒng)：AdaptThink 可以快速響應(yīng)簡(jiǎn)單問題，提高系統(tǒng)吞吐量和用戶體驗(yàn)。然而，在面對(duì)復(fù)雜多輪對(duì)話時(shí)，可能需要進(jìn)一步優(yōu)化模型的上下文理解和推理能力。
智能輔導(dǎo)系統(tǒng)：AdaptThink 能夠根據(jù)習(xí)題難度自適應(yīng)調(diào)整思考模式，為學(xué)生提供精準(zhǔn)輔導(dǎo)。但在不同學(xué)科和知識(shí)點(diǎn)上的適配性需要進(jìn)一步驗(yàn)證和優(yōu)化。
文本生成任務(wù)：在自然語言處理領(lǐng)域的文本生成任務(wù)中，AdaptThink 可以減少生成過程中的冗余內(nèi)容，提高生成效率。但對(duì)于一些需要高度創(chuàng)造性和多樣性的文本生成任務(wù)，如何平衡推理質(zhì)量和創(chuàng)意表達(dá)是一個(gè)挑戰(zhàn)。
圖像識(shí)別與分析：AdaptThink 的自適應(yīng)推理機(jī)制也可以應(yīng)用于圖像識(shí)別領(lǐng)域，例如在簡(jiǎn)單場(chǎng)景中快速識(shí)別目標(biāo)物體，在復(fù)雜場(chǎng)景中進(jìn)行多步推理和分析。但在處理大規(guī)模圖像數(shù)據(jù)時(shí)，模型的計(jì)算資源需求和實(shí)時(shí)性要求需要特別關(guān)注。

針對(duì)這些實(shí)際落地挑戰(zhàn)，研究者們提出了以下解決方案和研究方向：

模型優(yōu)化與壓縮：通過模型量化、剪枝等技術(shù)，降低模型的計(jì)算復(fù)雜度和存儲(chǔ)需求，提高其在資源受限環(huán)境中的適用性。
多領(lǐng)域數(shù)據(jù)訓(xùn)練：利用多領(lǐng)域數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練，增強(qiáng)其在不同領(lǐng)域和任務(wù)上的通用性和適應(yīng)性。
人機(jī)協(xié)作與反饋：引入人機(jī)協(xié)作機(jī)制，通過用戶反饋和交互進(jìn)一步優(yōu)化模型的推理策略和結(jié)果。
持續(xù)學(xué)習(xí)與更新：采用持續(xù)學(xué)習(xí)方法，使模型能夠不斷學(xué)習(xí)新的知識(shí)和技能，適應(yīng)不斷變化的應(yīng)用場(chǎng)景和用戶需求。

總結(jié)

AdaptThink 算法，實(shí)現(xiàn)了推理模型基于問題難度的 optimal thinking mode 自適應(yīng)選擇，大幅降低了推理成本并提升了模型性能；最后，通過一系列實(shí)驗(yàn)驗(yàn)證了 AdaptThink 的有效性，為其作為優(yōu)化推理質(zhì)量和效率權(quán)衡的新型范式提供了有力支持。

用最簡(jiǎn)短的語言來總結(jié)一下 AdaptThink 的原理：

AdaptThink 的原理是通過強(qiáng)化學(xué)習(xí)（RL）算法，利用獎(jiǎng)懲機(jī)制來訓(xùn)練模型在面對(duì)不同難度的問題時(shí)，自適應(yīng)地選擇是否使用 <think></think> 這個(gè) special token 來開啟或關(guān)閉思考模式，從而在推理質(zhì)量和效率之間取得更好的平衡。

AdaptThink 在實(shí)際應(yīng)用場(chǎng)景中具有巨大潛力。在自動(dòng)問答系統(tǒng)中，它能夠快速響應(yīng)簡(jiǎn)單問題，提高系統(tǒng)吞吐量和用戶體驗(yàn)；在智能輔導(dǎo)系統(tǒng)中，可根據(jù)不同難度的習(xí)題自適應(yīng)調(diào)整思考模式，為學(xué)生提供精準(zhǔn)且高效的輔導(dǎo)。此外，針對(duì)不同領(lǐng)域問題，如自然語言處理領(lǐng)域的文本生成任務(wù)、圖像識(shí)別領(lǐng)域的復(fù)雜場(chǎng)景分析等，AdaptThink 也有可能通過適應(yīng)性調(diào)整，發(fā)揮其獨(dú)特優(yōu)勢(shì)。

參考資料