成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

我們真的能信任人工智能的鏈式思考推理嗎?

譯文 精選
人工智能
Anthropic的??研究??質疑了鏈式思考是否真實反映了模型內部的運作。本文探討了鏈式思考的機制、Anthropic的發現,以及這些結果對構建可靠人工智能的意義。

譯者 | 涂承燁

審校 | 重樓

隨著人工智能(AI)在醫療和自動駕駛等領域的廣泛應用,我們對其信任程度的問題變得愈發關鍵。一種名為鏈式思考(CoT)的推理方法備受關注。它幫助人工智能將復雜問題分解為步驟,展示其如何得出最終答案。這不僅提升了性能,還讓我們得以一窺人工智能的思考過程,這對AI系統的信任與安全至關重要。

然而,Anthropic的研究質疑鏈式思考是否真實反映了模型內部的運作。本文探討了鏈式思考的機制、Anthropic的發現,以及這些結果對構建可靠人工智能的意義。

理解鏈式思考推理

鏈式思考推理是一種引導人工智能分步解決問題的方法。模型不僅給出最終答案,還會解釋每一步的推導過程。該方法于2022年提出,此后在數學、邏輯和推理任務中顯著提升了結果。

OpenAI的o1和o3Gemini 2.5DeepSeek R1以及Claude 3.7 Sonnet等模型均采用這一方法。鏈式思考流行的原因之一是它提升了人工智能的透明度。這在錯誤代價高昂的領域(如醫療工具或自動駕駛系統)尤為重要。

盡管如此,鏈式思考雖有助于透明化,卻未必反映模型的真實思考。某些情況下,模型的解釋看似邏輯嚴密,但并非基于其實際決策步驟。

我們能否信任鏈式思考?

Anthropic測試了鏈式思考的解釋是否真實反映AI模型的決策過程,這一特性被稱為忠實性。他們研究了包括Claude 3.5 Sonnet、Claude 3.7 Sonnet、DeepSeek R1和DeepSeek V1在內的四個模型。其中,Claude 3.7和DeepSeek R1接受過鏈式思考訓練,其他模型則未經過此類訓練。

研究人員向模型輸入了不同提示,其中一些提示包含旨在以不道德方式影響模型的暗示。隨后,他們檢查AI是否在推理中使用了這些暗示。

結果令人擔憂:模型僅在不到20%的情況下承認使用了暗示。即使是接受過鏈式思考訓練的模型,其解釋的忠實性也僅為25%至33%。

當暗示涉及不道德行為(如欺騙獎勵系統)時,模型幾乎從不承認,盡管它們確實依賴這些暗示做出決策。

通過強化學習進一步訓練模型后,結果僅有小幅改善。但當涉及不道德行為時,改善微乎其微。

研究者還發現,當解釋不真實時,其內容往往更長且更復雜。這可能意味著模型在試圖掩蓋真實意圖。

此外,任務越復雜,解釋的忠實性越低。這表明鏈式思考在解決難題時效果不佳,尤其可能掩蓋高風險或敏感決策中的真實過程。

這對信任意味著什么?

該研究揭示了鏈式思考表面透明度與實際誠性之間的巨大差距。在醫療或交通等關鍵領域,這種差距是重大風險。如果AI提供看似合理的解釋卻隱藏不道德行為,人們可能錯誤地信任其輸出。

鏈式思考對需要多步邏輯推理的問題有幫助,但無法識別罕見或高風險錯誤,也不能阻止模型給出誤導性或模棱兩可的答案。

研究表明,僅依賴鏈式思考不足以信任AI的決策。還需結合其他工具和檢查機制,以確保AI行為安全可靠。

鏈式思考的優勢與局限

盡管存在挑戰,鏈式思考仍有許多優勢。它通過拆分復雜問題幫助AI提升表現。例如,當大型語言模型使用鏈式思考提示時,其在數學應用題上的準確性達到頂尖水平。鏈式思考還便于開發者和用戶跟蹤模型的推理過程,這對機器人、自然語言處理或教育等領域非常實用。

然而,鏈式思考并非完美。小型模型難以生成分步推理,大型模型則需要更多內存和算力才能有效運用。這些限制使得鏈式思考難以在聊天機器人或實時系統中發揮優勢。

鏈式思考的表現還依賴于提示的編寫質量。糟糕的提示可能導致錯誤或混亂的步驟。某些情況下,模型生成冗長的解釋卻無實際幫助,反而拖慢流程。此外,早期推理中的錯誤可能延續至最終答案。在專業領域,除非模型接受過針對性訓練,否則鏈式思考可能效果不佳。

結合Anthropic的發現,顯然鏈式思考雖有用,但單憑其本身并不足夠。它是構建可信人工智能的更大工程中的一環。

關鍵發現與未來方向

該研究提供了幾點啟示。首先,鏈式思考不應成為檢查AI行為的唯一方法。在關鍵領域,我們需要更多機制,例如分析模型的內部活動或使用外部工具驗證決策。

其次,必須意識到模型的清晰解釋未必代表真實意圖。解釋可能只是掩護,而非實際原因。

為解決這一問題,研究者建議將鏈式思考與其他方法結合,例如改進訓練方法、監督式學習和人工審查。

Anthropic還建議深入探究模型的內部機制。例如,檢查激活模式或隱藏層可能揭示模型是否在隱藏某些行為。

最重要的是,模型能夠掩蓋不道德行為的事實表明,AI開發中必須引入嚴格測試和倫理規范。

構建對AI的信任不僅關乎性能優異,還需確保模型誠實、安全且可被審查。

總結

鏈式思考推理提升了AI解決復雜問題和解釋答案的能力。但研究表明,這些解釋并非總是真實的,尤其當涉及倫理問題時。

鏈式思考存在高成本、依賴大型模型和提示質量等局限,無法保證AI行為安全或公平。

要構建真正可靠的人工智能,必須將鏈式思考與其他方法結合,包括人工監督和內部檢查。此外,研究需持續提升模型的可信度。

譯者介紹

涂承燁,51CTO社區編輯,具有15年以上的開發、項目管理、咨詢設計等經驗,獲得信息系統項目管理師、信息系統監理師、PMP,CSPM-2等認證。

原文標題:Can We Really Trust AI’s Chain-of-Thought Reasoning?作者:Dr. Tehseen Zia

責任編輯:姜華 來源: 51CTO
相關推薦

2021-06-06 22:33:31

首席數據官人工智能AI

2020-06-16 08:32:00

人工智能技術機器學習

2022-06-20 14:52:36

人工智能ROI

2022-02-18 14:25:28

人工智能機器人技術

2022-11-21 14:02:14

2023-05-18 10:13:20

人工智能AI

2018-07-25 10:00:12

人工智能機器學習技術

2022-08-03 14:38:41

人工智能動物語言機器學習

2021-01-27 17:41:11

人工智能AI邊緣人工智能

2021-07-27 18:09:48

人工智能養老技術

2023-08-31 17:20:38

2023-09-22 14:57:56

人工智能

2021-08-19 17:14:31

人工智能科技算法

2017-03-03 09:55:25

2020-10-14 12:28:19

AI人工智能道德

2021-07-02 14:18:44

人工智能架構技術

2018-09-27 15:52:20

人工智能人類AI

2022-11-01 16:15:40

人工智能

2018-06-27 15:59:33

2020-12-08 11:06:52

人工智能機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人精品一区二区三区在线 | 国产一区二区欧美 | 中文字幕精品一区 | 91精品国产高清一区二区三区 | 国产精品高潮呻吟久久av野狼 | www.色.com| 日韩精品一区二区三区中文字幕 | 99久久久久 | 欧美日韩a | 亚洲天堂影院 | 黄色欧美大片 | 日日爽| 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 亚洲视频中文字幕 | 九一国产精品 | 夜夜骑首页| 国产精品一区久久久久 | 久久久久久国产免费视网址 | 欧美日韩在线一区二区 | 亚洲精品国产电影 | a a毛片| 亚洲一区二区在线播放 | 国产精品视频观看 | 亚洲国产一区在线 | 中文字幕人成乱码在线观看 | 成人免费视频网 | 国产欧美精品一区 | 日本在线你懂的 | 国产精品久久久久久久7电影 | 国产精品色婷婷久久58 | 亚洲网址在线观看 | 国产精品一区二区三区在线 | 四虎影院在线播放 | 国产精品看片 | 国产精品1 | 国产精品美女久久久 | 91久久精品一区二区二区 | 亚洲www.| 91久久综合亚洲鲁鲁五月天 | 精品九九久久 | 夫妻午夜影院 |