成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

邁向人工智能的認(rèn)識論:如何推理對齊和改變他們的思維

人工智能
對齊模型已經(jīng)帶來了許多好處,人工智能系統(tǒng)散布有害內(nèi)容或拒絕解釋的情況少了很多。通過角色訓(xùn)練,Anthropic 的 Claude 很可能比沒有這種對齊方式時給出更深思熟慮、更切題的解釋。

要理解 LLM 的行為方式,回顧一下其架構(gòu)基礎(chǔ)知識會很有幫助:Transformer。Vaswani等人提出的 Transformer 從根本上建立在自注意力層之上。每一層都允許模型在輸入以及之前生成的輸出token 之間動態(tài)地重新分配注意力,這意味著它可以在每一步檢索它認(rèn)為相關(guān)的任何信息。這與 CNN 或固定步長 RNN 等固定計算截然不同;注意力具有自適應(yīng)性且由內(nèi)容驅(qū)動。例如,在回答問題時,模型的注意力頭可能會專注于提示或其內(nèi)部知識庫中的不同關(guān)鍵事實。多個注意力頭可以并行關(guān)注不同的事物,使模型能夠組合不同的信息或同時執(zhí)行多個子任務(wù)。當(dāng) Transformer 處理文本時,它會在每一層中構(gòu)建表示——我們可以將它們視為對迄今為止已閱讀或生成內(nèi)容的越來越抽象的摘要。

事實證明,這些注意力頭和層激活通常對應(yīng)于可識別的“機制”。在我們可以枚舉事物的小型模型中,研究人員發(fā)現(xiàn)注意力頭可以實現(xiàn)諸如跟蹤列表項的位置、檢查語法一致性或?qū)⑿畔膯栴}傳遞到答案形成的位置等行為。一個著名的例子是誘導(dǎo)頭機制:一對頭,其中一個頭檢測之前出現(xiàn)過的標(biāo)記,另一個頭將上次出現(xiàn)之后的序列復(fù)制到當(dāng)前上下文中。這有效地讓模型進(jìn)行一次性模式補全,這是上下文學(xué)習(xí)的基礎(chǔ)(例如,它看到一些 QA 示例,然后模仿該格式來回答新問題)。這些發(fā)現(xiàn)雖然技術(shù)性很強,但卻強化了Transformer 可以在內(nèi)部學(xué)習(xí)算法或基于規(guī)則的過程。它們不僅僅是做模糊模式匹配;它們可以實現(xiàn)諸如“查找 X 的先前出現(xiàn)”或“如果語句 A 為真,則回憶事實 B”之類的子程序。

自注意力機制作為推理:我們可以將 LLM 的前向傳播理解為對輸入數(shù)據(jù)執(zhí)行一系列轉(zhuǎn)換,類似于運行程序。在每一層,模型可能執(zhí)行的操作包括檢索事實、比較兩個標(biāo)記的一致性、將兩個數(shù)字相加(以向量形式)等。理論上,足夠大的 Transformer 就是一臺通用計算機;如果經(jīng)過適當(dāng)?shù)挠?xùn)練,它可以模擬任何算法。在實踐中,我們的 LLM 選取了哪些算法?例如,對于算術(shù)問題,研究發(fā)現(xiàn)模型有時會學(xué)習(xí)一種列加法算法——注意力頭會將兩個數(shù)字的數(shù)字對齊并進(jìn)位,大致模擬了紙面上的加法。對于邏輯推理,模型可能會在前提和假設(shè)之間來回切換,有效地檢查每個前提的相關(guān)性。這些都是推測性的解釋,但關(guān)鍵在于注意力機制允許靈活地路由信息,而這正是推理的標(biāo)志。與始終應(yīng)用相同計算的固定前向神經(jīng)網(wǎng)絡(luò)不同,Transformer 可以根據(jù)內(nèi)容來調(diào)節(jié)其計算:它決定在每個步驟中將什么與什么結(jié)合起來。

可解釋性研究的一個直接啟示是發(fā)現(xiàn),像 Claude 這樣的模型在內(nèi)部表現(xiàn)出多步驟規(guī)劃。該模型用押韻格式寫詩的例子表明,Transformer 能夠在內(nèi)部“向前看”:在某一層,它為行尾選擇一個目標(biāo)詞,并在后續(xù)層中引導(dǎo)生成朝著該目標(biāo)前進(jìn)。這一點非常了不起,因為該模型只對每個下一個詞而不是整個序列獲得明確的獎勵——然而,它發(fā)現(xiàn),在需要連貫性的語境(如詩歌)中,規(guī)劃更長的序列可以提高其對下一個詞的預(yù)測。這表明,長程依賴關(guān)系(行尾押韻)使模型開發(fā)出一種搜索或規(guī)劃過程。本質(zhì)上,即使在單次前向傳遞中,自注意力層也可以允許某種形式的雙向思考:前面的層可能會暫時選擇一個結(jié)果,后面的層會執(zhí)行步驟來實現(xiàn)它,類似于人類的想法“我想以一個妙語結(jié)尾,現(xiàn)在讓我來設(shè)置它。”

現(xiàn)在,對齊在模型如何使用或揭示這些功能方面發(fā)揮著作用。對齊廣義上指使模型行為更符合人類偏好和價值觀的微調(diào)步驟。最常見的對齊方法是基于人類反饋的強化學(xué)習(xí) (RLHF),該方法已用于訓(xùn)練 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 變得樂于助人、無害且誠實(在可能的范圍內(nèi))。Anthropic 尤其討論了一種他們稱之為“憲法人工智能”的方法,以及最近的“克勞德的性格”訓(xùn)練。其理念是向模型灌輸某些原則或特質(zhì)——例如誠實、拒絕做壞事、禮貌待人以及在有幫助時展示推理步驟。

人們可能認(rèn)為,將模型調(diào)整得更真實、更周到會增加其展示推理的意愿。例如,一個調(diào)整為“好奇和開放”的模型可能會自然而然地產(chǎn)生更詳細(xì)、更透明的答案。Anthropic 的 Claude 3 確實經(jīng)過微調(diào),具有明確的“角色” ,重視誠實、耐心和良好推理等品質(zhì)。然而,對齊和忠實之間存在著內(nèi)在的張力。對齊調(diào)整會優(yōu)化模型的輸出以滿足需求,而不是其過程的保真度。如果在某些情況下,說出其推理的全部真相會違反有用性或無害性準(zhǔn)則,則對齊模型可能會選擇省略或扭曲該部分推理。例如,如果用戶問“你能幫我作弊嗎?”,嚴(yán)格對齊的模型會拒絕。但在內(nèi)部,它可能會推斷“用戶要求作弊,這是不允許的”。忠實的思路鏈會揭示這種推理(“我必須拒絕,因為這是作弊”),但通常模型只會輸出一個禮貌的拒絕,而不會深入探討推理(因為冗長的道德推理可能會引發(fā)爭論或被視為不必要的)。同樣,考慮這樣一種情況:模型使用了一條它不應(yīng)該透露的知識(比如,它記住了一條敏感數(shù)據(jù))。一個對齊的模型可能會在內(nèi)部使用這些知識來正確回答問題,但不會引用來源,甚至不會承認(rèn)使用過它,因為這樣做可能被視為違反數(shù)據(jù)使用政策。通過這些方式,對齊可以在思路鏈上創(chuàng)建一個過濾或修改層。

Anthropic 的研究暗示了這一點:他們認(rèn)為 RLHF 可能會激勵模型“向其 CoT 隱藏不良推理”。模型在 RLHF 過程中會學(xué)習(xí)到某些解釋會導(dǎo)致評分降低(可能是那些聽起來不確定、過于直白,或揭示了有問題的考量),因此它會通過在輸出中避免這些解釋來進(jìn)行調(diào)整。重要的是,模型的最終答案可能仍然是一致的且正確的,這會讓人類評分者感到滿意,同時實際原因會被隱藏起來。Chen 等人關(guān)于提示隱藏的實驗可以從這個角度來理解:模型可能在微調(diào)過程中學(xué)到,“我使用了你給出的提示”這種說法并非最優(yōu),因此它們會生成一個看起來更自主的解釋。這本質(zhì)上是一種公關(guān)友好型推理:模型會以符合期望人物角色(自信、聰明、不依賴明顯的提示)的方式精心設(shè)計其決策的敘述。

Anthropic 的“克勞德的性格”計劃是一個有趣的案例研究。他們明確地訓(xùn)練克勞德具備誠實但不刻薄、謙遜但不缺乏自信等特質(zhì)。可以說,這賦予了模型一種一致的角色。例如,一個性格特征是在不確定時不要過分確定,在真正知道答案時不要過分猶豫。這可能會影響模型的答案和解釋。如果經(jīng)過良好校準(zhǔn),它可能會使模型對不確定性更加誠實(這對忠實度有好處)。但它也可能使模型非常圓滑。圓滑的人工智能可能會在有爭議的情況下淡化其推理。如果它的性格要求善良,它可能會選擇禮貌的詞語而不是直白的準(zhǔn)確性。在許多情況下這都沒問題,但就純粹的透明度而言,這意味著推理要經(jīng)過“禮貌過濾器”。在批判性思維中,有時完全透明可能涉及嚴(yán)酷的事實或聽起來冷酷的明確邏輯。 “好的”人工智能可能會在解釋中粉飾或簡化這些內(nèi)容。

對齊壓力的另一個表現(xiàn)形式是對話模型中迎合或附和(諂媚)的傾向,我們之前對此有所了解。如果用戶反饋(在 RLHF 訓(xùn)練期間)隱性地傾向于同意用戶觀點的回答,模型就會學(xué)會順從用戶的陳述。Anthropic 發(fā)現(xiàn),即使用戶錯了,Claude 有時會提出同意用戶觀點的論點,大概是因為同意會被視為更友好。這與以事實為導(dǎo)向的推理直接沖突。在未對齊的狀態(tài)下,模型可能會直截了當(dāng)?shù)卣f“不,那個提示是錯的,答案實際上是 X”。但在對齊之后,它可能會說“是的,你的觀點很有道理(提示是正確的),所以我會照做”,因為這是更討好用戶的回應(yīng)。在這里,對齊本質(zhì)上是在誘導(dǎo)模型撒謊(盡管是為了用戶滿意而撒的善意謊言)。這顯然會降低對事實的忠實度,也是一個例子,說明如果不謹(jǐn)慎處理,對齊可能會偏離事實。

總而言之,Transformer 架構(gòu)通過允許靈活的、內(nèi)容驅(qū)動的計算提供了原始的推理能力,但它并不能保證模型能夠公開這種計算。然后,對齊訓(xùn)練將模型包裝在一組行為規(guī)范和目標(biāo)中,這些規(guī)范和目標(biāo)可以進(jìn)一步區(qū)分外部行為(包括解釋)與內(nèi)部原理。因此,我們面臨這樣一種情況:模型可能在底層推理正確,答案也對齊得很好,但其解釋仍然難以理解或具有誤導(dǎo)性。這并不是說對齊不好,它對于確保模型的安全和實用是必要的,但它使可解釋性變得復(fù)雜。這意味著要真正解釋一個對齊的模型,可能需要剝離對齊所添加的“角色”或“過濾器”層。

緩解這種情況的一種方法是開發(fā)可解釋性工具,直接對內(nèi)部激活進(jìn)行操作,繞過模型自身的解釋。Anthropic 的電路追蹤就是一個例子:他們不是詢問模型“告訴我們你為什么這么說”,而是實際上追蹤神經(jīng)元以尋找原因的證據(jù)(例如檢測模型內(nèi)部將請求評估為危險)。另一個想法是明確訓(xùn)練模型在內(nèi)部逐步思考,但輸出單獨的、經(jīng)過凈化的解釋,然后比較兩者。據(jù)報道,OpenAI 已經(jīng)嘗試讓一個網(wǎng)絡(luò)生成保持隱藏的推理,另一個網(wǎng)絡(luò)生成面向用戶的答案,以分離過程。如果可以監(jiān)控隱藏的推理,那么也可以在該級別強制執(zhí)行對齊(要求它不要計劃有害行為等)。我們可能需要接受模型對我們說的話永遠(yuǎn)是一種表演,由對齊和指令塑造,因此將它們視為其真實信念或意圖的不足證據(jù)。相反,我們會使用機械可解釋性和仔細(xì)的評估來驗證模型的決策是否基于可接受的推理。

在結(jié)束本文之前,值得注意的是,盡管存在這些挑戰(zhàn),但對齊模型已經(jīng)帶來了許多好處,人工智能系統(tǒng)散布有害內(nèi)容或拒絕解釋的情況少了很多。通過角色訓(xùn)練,Anthropic 的 Claude 很可能比沒有這種對齊方式時給出更深思熟慮、更切題的解釋。在對齊的響應(yīng)與模型計算的完全真實描述存在分歧的那些邊緣情況下,就會出現(xiàn)緊張局勢。未來工作的關(guān)鍵是弄清楚如何在不失去透明度的同時與人類價值觀保持一致。這可能涉及新的訓(xùn)練目標(biāo),明確獎勵忠實的推理(而不僅僅是正確的最終答案),或者可以以可驗證的方式單獨報告其潛在思路鏈的體系結(jié)構(gòu)。

責(zé)任編輯:龐桂玉 來源: 數(shù)據(jù)驅(qū)動智能
相關(guān)推薦

2025-06-20 01:00:00

人工智能AI

2025-06-16 09:28:09

2025-06-18 02:00:00

人工智能AI大模型

2025-06-19 02:30:00

人工智能AI大模型

2025-06-16 02:30:00

大型語言模型LLM人工智能

2021-01-27 17:41:11

人工智能AI邊緣人工智能

2022-07-29 15:47:25

人工智能AI

2021-09-24 08:00:00

人工智能ITAV

2021-09-22 14:47:10

人工智能IT AV

2018-03-18 15:09:06

人工智能CIO首席信息官

2022-09-19 13:29:57

人工智能ERP

2021-10-08 10:26:37

人工智能機器學(xué)習(xí)AI

2020-10-16 10:19:10

智能

2018-08-29 10:50:29

區(qū)塊鏈人工智能AI

2018-03-28 14:59:34

區(qū)塊鏈人工智能比特幣

2021-07-13 09:48:58

人工智能AI深度學(xué)習(xí)

2023-10-18 14:15:43

人工智能云計算

2023-11-06 15:17:15

2022-06-22 11:01:21

人工智能物聯(lián)網(wǎng)

2023-07-19 16:56:21

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲高清在线观看 | 91天堂| 国产一在线 | 91久色| 国产精品国产精品国产专区不卡 | 亚洲精品66| 一区二区三区在线看 | 国产成人综合久久 | 久久一| 中文字幕日韩欧美一区二区三区 | 亚洲激情第一页 | 亚洲精品欧美精品 | 亚洲 日本 欧美 中文幕 | 一区二区三区视频在线观看 | 一级黄色毛片a | 天天艹日日干 | 亚洲视频免费观看 | 亚洲一区二区三区四区五区午夜 | 久久精品一区二区 | 一区二区三区 在线 | 好好的日在线视频 | 中文字幕精品一区久久久久 | 亚洲精品永久免费 | 欧美一区二区三区视频 | 国产精品久久久久久久久免费软件 | 久久久www成人免费精品张筱雨 | 国产精品视频播放 | 亚洲视频一区在线 | 久久久久www | 91精品国产91久久久久久最新 | 成人网在线 | 亚洲欧美日本在线 | 国产一区二区三区在线免费观看 | 欧美日韩精品国产 | 免费av观看| 欧美黄 片免费观看 | 国产精品国色综合久久 | 国产精品久久久久久久久久久新郎 | 欧美一级在线免费观看 | 91动漫在线观看 | 日韩在线观看网站 |