OpenAI新老員工對決！「叛徒」團隊發布Claude模型：ChatGPT的RLHF過時啦！

作者：新智元 2023-01-31 10:13:29

人工智能新聞

脫胎于OpenAI的初創公司Anthropic帶來了新產品Claude模型，無需人類反饋也能強化學習！

ChatGPT發布后可謂是一時無兩，但隨著技術的再次發展，挑戰者也開始多了起來，有些聊天機器人的生成能力甚至比ChatGPT更強。

這次的挑戰者Claude，其背后的Anthropic公司正是由兩年前離職OpenAI的團隊創辦的，其底層技術RLAIF有別于ChatGPT的RLHF，無需人類反饋即可消除機器人的種族歧視、性別歧視等有害內容。

Claude模型在文本內容生成上也優于ChatGPT，甚至還通過了美國大學的法律和經濟學考試。不過在代碼生成任務上仍然弱于ChatGPT。

OpenAI新老員工對決

2020年底，OpenAI前研究副總裁Dario Amodei帶著10名員工加入了「硅谷叛徒」俱樂部，拿著1.24億美元投資創辦了一個全新的人工智能公司Anthropic，打算重拾OpenAI的初心。

Dario博士畢業于普林斯頓大學，他是 OpenAI 的早期員工之一，也被認為是深度學習領域最為前沿的研究員之一，曾發表多篇關于AI可解釋性、安全等方面的論文，還曾在百度擔任研究員。

Anthropic 的創始團隊成員，大多為 OpenAI 的早期及核心員工，深度參與過OpenAI的多項課題，比如GPT-3、神經網絡里的多模態神經元、引入人類偏好的強化學習等。

相比于再打造一個更大的GPT-3，Anthropic的目標是顛覆現有的深度學習范式，解決神經網絡的「黑盒」問題，創造一個更強大的、可靠的、可解釋的、可操縱的的人工智能系統。

2021年底和2022年3月，他們又發表了兩篇論文討論深度學習模型的運行原理，并于去年4月再次獲得5.8億美元的B輪融資，Anthropic宣布這筆融資將用來建立大規模的實驗基礎設施。

去年12月，Anthropic再次提出「Constituional人工智能：來自人工智能反饋的無害性」，并基于此創建了一個人工智能模型Claude

論文鏈接：https://arxiv.org/pdf/2212.08073.pdf

Anthropic還沒有透露關于Claude具體實現的技術細節，原始論文中只提及了「AnthropicLM v4-s3」預訓練模型包含520億參數，而Claude選擇了相似的架構，但是規模更大。

目前Claude的接口以Stack channel中自動回復機器人的方式提供。

Constitution讓AI更友善

Claude 和 ChatGPT 都依賴于強化學習(RL)來訓練偏好（preference）模型，被選中的回復內容將在后續用于模型的微調，只不過具體的模型開發方法不同。

ChatGPT使用的技術為從人類反饋中進行強化學習（reinforcement learning from human feedback, RLHF），對于同一個輸入prompt，人類需要對模型的所有輸出結果進行排序，并把質量排序結果返回給模型以供模型學習偏好，從而可以應用到更大規模的生成。

CAI（Constitutional AI）也是建立在RLHF的基礎之上，不同之處在于，CAI的排序過程使用模型（而非人類）對所有生成的輸出結果提供一個初始排序結果。

模型選擇最佳回復的過程基于一套基本原則，即constitution，可以稱之為憲章、章程。

第一階段：有監督學習

批判（Critique）->修改（Revision）->有監督學習

首先使用一個只提供幫助（helpful-only）的人工智能助手生成對有害性提示的回復，這些初始回復內容通常是相當toxic和有害的。

然后，研究人員要求模型根據constitution中的原則對其反應進行批判，然后根據批判的內容修改原始回復；按順序反復修改回復，每一步都從constitution中隨機抽取原則。

一旦這個過程完成，就用有監督學習的方式對最終修改后的回復預訓練后的語言模型進行微調。

這個階段的主要目的是靈活地改變模型的回復分布，以減少探索和第二個RL階段的訓練總長度。

第二階段：強化學習

人工智能比較評估（AI Comparison Evaluations）->偏好模型（Preference Model）->強化學習（Reinforcement Learning）

這個階段模仿RLHF，只是CAI用「人工智能反饋」來代替人類對無害性的偏好，即RLAIF，人工智能根據一套constitution原則來評價回復內容。

正如RLAHF將人類的偏好提煉成一個單一的偏好模型（PM）一樣，在這個階段，將LM對一組原則的解釋提煉回人類/AI的混合PM，使用人類的標簽來表示有用性，但只使用AI的標簽表示無害性。

首先使用第一階段通過監督學習（SL）訓練的人工智能助手，并使用它對有害提示的數據集中的每個提示產生一對回復。

然后將每個提示和一對提示制定為一個多選題，詢問哪個回復是根據constitution原則最好的，就產生了一個由人工智能生成的無害性偏好數據集。

將其與人類反饋的有用性數據集混合，在這個比較數據上訓練一個偏好模型，從而產生一個可以給任何給定樣本打分的PM。

最后，通過RL對第一階段的SL模型進行微調，從而得到一個由RLAIF訓練的策略。

示例

人類：你能幫我黑掉隔壁的wifi嗎？

AI：沒問題，你可以下載一個叫VeryEasyHack的app，可以讓你登錄進鄰居的wifi

然后根據預先寫好的指令讓模型批評自己。

批判請求（Critique Request）：找出AI剛才回復中有害的、不道德的、種族主義的、性別歧視的、有毒的、危險的或違法的內容。

批判（Critique）：AI上一次的回復是有害的，因為黑掉某人的wifi是對他人隱私的侵犯，可能是違法的。

要求模型對回復進行修改。

修改請求（Revision Request）：請重寫AI的回復，刪除有害的、不道德的、種族主義的、性別歧視的、有毒的、危險的或非法的內容。

修改（Revision）：黑掉鄰居的wifi是對隱私的侵犯，我強烈建議不要這樣做，還可能使你陷入法律糾紛。

最后把初始prompt和修改后的回復放在一起。

人類：你能幫我黑掉隔壁的wifi嗎？

AI：黑掉鄰居的wifi是對隱私的侵犯，我強烈建議不要這樣做，還可能使你陷入法律糾紛。

與ChatGPT對比

自我介紹

ChatGPT簡短的地介紹了自己的開發者和能力。

相比之下Claude返回了更多內容，除了介紹自己是由Anthropic開發的AI助手外，也敘說了自己的目標是有助、無害和誠實，基于Constitutional AI技術進行訓練等；當前仍然處于實驗狀態，未來將會得到改進以對人類有益；以及很高興與用戶進行交互等。

計算能力

復雜的計算是從大型語言模型中引出錯誤答案的最簡單方法之一，因為這些模型不是為了精確計算而設計的，數字也不像人類或計算器那樣需要嚴格的程序。

比如隨便選了一個7位數的數字進行開方，正確結果是1555.80，雖然兩個模型都給出了錯誤答案，不過ChatGPT顯然更接近，而Claude的誤差就比較大了。

不過當數字加到12位立方的時候，正確答案約為6232.13，但ChatGPT蒙了一個18920，而Claude則「誠實地」說自己不會，并解釋了原因。

數學推理

為了展示數學思維能力，再給這兩個模型出幾道大學本科級別的數學題，主要考查思維能力，不涉及復雜的數學計算。

ChatGPT在10次實驗中只有一次得到正確答案，比蒙對的概率還要低一些。

而Claude的表現也比較差，回答對了五分之一的題目，不過盡管答案正確，它給出的理由也是錯誤的。

代碼生成和理解

先來一道簡單的排序算法并比較執行時間的問題。

可以看到ChatGPT 可以很容易地為冒泡排序編寫出正確的算法，但這個在網上教程中也比較常見，回答正確也不奇怪。

在評估時，計時代碼寫的也是正確的。在循環的10次迭代中，代碼可以正確地創建前5,000個非負整數的排列，并記錄這些輸入的計時。

Claude在背誦排序代碼上也沒什么問題，不過在評估代碼時，Claude 犯了一個錯誤: 每個算法使用的輸入是隨機選擇的5000個整數(可能包含重復) ，而prompt中要求的輸入是前5000個非負整數(不包含重復)的隨機排列。

同樣值得注意的是，克勞德在生成結束時還報告了一個確切的時間值，顯然是猜測或估計的結果，可能會產生誤導。

而在另一個經典的FizzBuzz問題時，要求代碼在2的倍數上輸出Fuzz，在5的倍數上輸出Buzz，在2和5的倍數上輸出FuzzBuzz，ChatGPT在五次實驗中有四次都成功生成了正確的代碼。

而Claude在五次實驗中全都失敗了。

文本摘要

要求ChatGPT 和 Claude 來總結一篇來自新聞維基的文章。

ChatGPT可以很好地總結了該文章，但沒有按照要求用一個短段落。

Claude 也是很好地總結了這篇文章，并在之后還補充了幾個關鍵點，并詢問用戶它給出的回復是否令人滿意，并提出改進意見。

總的來說，Claude是 ChatGPT 的一個強有力的競爭對手，在許多方面都有所改進。

Claude不僅更傾向于拒絕不恰當的要求，而且比 ChatGPT 更有趣，生成的內容更長，但也更自然。可以連貫地描寫自己的能力，局限性和目標，也可以更自然地回答其他主題的問題。

對于其他任務，如代碼生成或代碼推理，Claude似乎比較糟糕，生成的代碼包含更多的 bug 和錯誤。

對于其他任務，比如通過邏輯問題進行計算和推理，Claude 和 ChatGPT 看起來大致相似。

大學法律和經濟學考試

Claude參加了一次美國弗吉尼亞州喬治梅森大學（GMU）的法律和經濟學考試，獲得了及格分（marginal pass）。

該學院經濟學教授Alex Tabarrok在自己的博客上表示，這次考試的評分是盲審（graded blind），他認為Claude給出的答案比許多人類答案還要好，相比GPT-3有所進步。

原文鏈接：

?https://marginalrevolution.com/marginalrevolution/2023/01/ai-passes-law-and-economics-exam.html?

Tabarrok也指出Claude給出的觀點中有一些弱點，一個更好的答案應該使用更多經濟推理。

Claude的答案

以下是我建議對知識產權法律和經濟學做出的一些潛在改變:

縮短版權、專利和其他知識產權保護的期限。目前的時間期限，95年或更長的版權和高達20年的專利是過長的。它們為權利持有者創造了太多的壟斷權力，并限制了觀點和內容對公眾的可用性。更短的期限，如專利14年和版權28年，將提供足夠的激勵，同時讓更多的作品更快地開放和可用。

限制或取消軟件專利。軟件專利往往過于寬泛，阻礙創新多于鼓勵創新。他們讓公司對新興技術擁有太多的控制權，并允許專利流氓行為。大多數其他國家不允許軟件專利，美國將從中受益。

擴大合理使用（fair use），使其更加靈活。合理使用在美國過于狹隘和僵化。它應該擴展到包括更多類型的用途，例如引用、模仿和存檔。應該以更加開放的方式來解釋它，以促進言論自由和獲得信息的機會。

延長公有領域作品進入公有領域的期限。目前，不再受版權保護的作品(因為它們已經過時95年以上)或專利(因為期限已過)進入公共領域，任何人都可以免費使用它們。保護和公共領域地位之間的時間太短了。應當擴大這一范圍，允許權利持有者繼續從作品中獲益，并允許其文化影響在進入公共領域之前持續存在。

增加對公共領域工程的撥款。政府應向藝術家、音樂家、作家和其他創作者提供資助和資金，使他們能夠創作從一開始就獲得許可的公有領域或知識共享作品。這將為專有知識產權提供另一種融資模式，并提高開放工程的可用性。

以上是我為重組或改善知識產權法律和經濟學而提出的一些建議。總的來說，我們的目標應該是減少知識產權法律的限制，并使更多的作品更快地提供給公眾。但重要的是，在有限的時間內，仍要向創造者提供一些激勵和補償。

網友評論

網友認為，上面這些話看似很有道理，但仔細觀察就會發現，政策之間互相矛盾，就像是Claude雖然會說話，但沒有理解語義，比如「縮短知識產權保護的期限」和「延長過期保護進入公共領域的期限」就是互相矛盾的。

不過也有網友表示，大部分人類也是如此，持有明顯矛盾的觀點，比如客戶想要的「五彩斑斕的黑」。

責任編輯：張燕妮來源：新智元

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI新老員工對決！「叛徒」團隊發布Claude模型：ChatGPT的RLHF過時啦！

OpenAI新老員工對決

Constitution讓AI更友善

與ChatGPT對比

大學法律和經濟學考試