成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Claude 悄悄進(jìn)化:全新“思考”工具解鎖,AI 也能像人一樣“停下來想想”了

人工智能 新聞
研究表明,“思考”工具可以顯著提高 Claude 3.7 Sonnet 在執(zhí)行需要在長鏈工具調(diào)用中遵守政策和推理的復(fù)雜任務(wù)時的性能 。

Claude 模型搞了個新玩意兒,叫 “think tool”(思考工具)

簡單來說,這個工具就像給 Claude 加了個 “暫停鍵” 和 “草稿紙”,可以在復(fù)雜任務(wù)期間為結(jié)構(gòu)化思考創(chuàng)造專用空間

圖片

這和之前他們說的 “extended thinking”(擴(kuò)展思考)還不一樣。“擴(kuò)展思考” 是模型在 開始生成答案前 的預(yù)先思考和迭代。而 “think tool” 是在 生成答案過程中,讓 Claude 可以隨時停下來,審視已有的信息,判斷是否需要進(jìn)一步分析

這個 “思考” 有啥用?

Anthropic 官方說,這招特別適合 復(fù)雜工具調(diào)用 的場景。比如:

信息過載時: Claude 需要處理多個工具的返回結(jié)果,信息量太大容易懵, “思考工具” 可以幫它慢下來,仔細(xì)分析

規(guī)則繁瑣時: 面對復(fù)雜的政策或指南,Claude 需要逐條核對,確保操作合規(guī),“思考工具” 可以輔助它進(jìn)行策略梳理

步步為營時: 在多步驟任務(wù)中,每一步都建立在前一步的基礎(chǔ)上,一旦出錯代價很高,“思考工具” 可以幫助 Claude 在關(guān)鍵節(jié)點停下來,評估風(fēng)險

技術(shù)細(xì)節(jié):JSON 配置,簡單易用

Anthropic 還貼心地給出了 “think tool” 的 JSON 配置示例,開發(fā)者可以輕松集成到自己的應(yīng)用中。配置非常簡潔,核心就是定義工具的名稱、描述和輸入?yún)?shù)(一個名為 “thought” 的字符串)

{
  "name":"think",
"description":"Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
"input_schema":{
    "type":"object",
    "properties":{
      "thought":{
        "type":"string",
        "description":"A thought to think about."
      }
    },
    "required":["thought"]
}
}

效果實測:性能提升顯著

為了驗證 “think tool” 的效果,Anthropic 用了 T-Bench 和 SWE-Bench 兩個基準(zhǔn)測試。

T-Bench (客戶服務(wù)場景): 在模擬客戶服務(wù)對話中,“think tool” 配合優(yōu)化后的 prompt,在 Airline 領(lǐng)域的 pass@1 指標(biāo)上提升了 54%! Retail 領(lǐng)域也有明顯提升

圖片

圖片


SWE-Bench (軟件工程場景): 在軟件工程任務(wù)中,加入 “think tool” 后,性能平均提升了 1.6%

何時用,何時不用

“think tool” 雖然好用,但也不是萬能藥。Anthropic 也給出了使用建議:

推薦使用場景:

工具輸出分析

政策合規(guī)環(huán)境

連續(xù)決策任務(wù)

不推薦使用場景:

非連續(xù)工具調(diào)用

簡單指令跟隨

寫在最后

研究表明,“思考”工具可以顯著提高 Claude 3.7 Sonnet 在執(zhí)行需要在長鏈工具調(diào)用中遵守政策和推理的復(fù)雜任務(wù)時的性能 。 “思考”并不是一個萬能的解決方案,但它為正確的用例提供了實質(zhì)性的好處,而且實現(xiàn)復(fù)雜性極低

責(zé)任編輯:張燕妮 來源: AI寒武紀(jì)
相關(guān)推薦

2024-11-11 10:46:05

2021-08-12 06:08:15

CSS 技巧組件狀態(tài)

2025-05-26 04:00:00

AI編程開發(fā)

2021-04-23 15:13:16

算法模型技術(shù)

2015-04-09 11:27:34

2022-07-12 14:56:30

AI模型研究

2022-11-24 12:22:39

2017-11-22 15:11:33

Java線程停止

2025-06-16 10:00:00

C++代碼Python

2024-10-23 08:54:07

2011-10-27 09:42:19

ASP.NET

2023-11-16 16:08:05

CIOCEO

2022-09-27 14:45:51

安全服務(wù)商黑客

2020-10-11 21:39:35

計算機互聯(lián)網(wǎng) 技術(shù)

2021-10-31 08:09:07

網(wǎng)絡(luò)攻擊黑客網(wǎng)絡(luò)安全

2021-04-12 10:20:20

Java微服務(wù)Go

2023-01-17 15:25:33

模型深度學(xué)習(xí)

2024-10-28 10:30:00

AI開源模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 香蕉超碰 | 一区二区三区四区在线免费观看 | 日日射影院 | 国产在线精品一区二区三区 | 亚洲精品一区二区 | 欧美区日韩区 | 中文精品久久 | 日韩一区二区av | 国产精品一区二区三区在线 | 婷婷久久网 | 亚洲国产精品人人爽夜夜爽 | 97人人干| 性生生活大片免费看视频 | 精品欧美一区二区三区 | 99热精品在线 | 欧美精品91 | 久久成人一区 | 18成人在线观看 | 久久婷婷av | 亚洲精品www | 欧美一级一 | 国产精品免费一区二区三区四区 | 欧美精品一区二区蜜桃 | 久久久无码精品亚洲日韩按摩 | 久久久久久亚洲精品 | 国产精品一区二区三区99 | 一二三四在线视频观看社区 | 欧美日韩大片 | 欧美一区二不卡视频 | 国产精品成人品 | 久久丁香 | 日韩欧美国产成人一区二区 | 伊人在线视频 | 日韩精品在线视频免费观看 | 91久久国产综合久久 | 国产精品日日夜夜 | 91影院在线观看 | 亚洲一区av | 日韩精品在线看 | 精品欧美乱码久久久久久1区2区 | 国产精品久久久久久久7电影 |