首次解密Claude 3大腦！25歲Anthropic參謀長預言3年內自己將被AI淘汰

作者：新智元 2024-06-03 08:40:00

人工智能新聞

Anthropic的25歲參謀長自曝因為深感AGI，未來三年自己的工作將被AI取代。她在最近的一篇文章中預言了未來即將要被淘汰的工種。難道說，Claude 3模型已經(jīng)初現(xiàn)AGI了嗎？

今天，整個AI社區(qū)被這篇文章刷屏了。

來自AI明星初創(chuàng)公司Anthropic的參謀長（Chief of Staff）在最新的文章中稱：

「我今年25歲，接下來的三年，將是我工作的最后幾年」。

這一切，竟是因為Avital Balwit深深地感受到了AGI！

她在文章開篇解釋道，「我既沒有生病，也不打算成為一名全職媽媽，更沒有幸運到實現(xiàn)經(jīng)濟自由，可以自愿提前退休。

我正站在技術發(fā)展的邊緣，一旦它真的到來，很可能會終結我所熟知的就業(yè)方式。

她接下來還解釋道，Anthropic模型的每一次迭代，都展現(xiàn)出比之前更強大、更通用的能力。

難道說，他們自家的內部模型，已經(jīng)強大到快要接近AGI的地步了嗎？

還記得幾天前，馬斯克曾表示，AGI明年就實現(xiàn)了。

一直以來，所有人關注的重心都在OpenAI身上，他們實現(xiàn)AGI了嗎？Ilya看到了什么？下一代前沿模型......

然而，作為OpenAI的最大勁敵Anthropic AI，實力也不容小覷。

Claude 3誕生之際，便將GPT-4從世界鐵王座拉了下來。隨后，雖GPT-4 Turbo模型更新再奪榜首，但Claude 3仍名列前茅。

幾天前，他們曾做了一項研究，首次從Claude 3中成功提取了百萬個表征，去破解LLM內部運作機制。

研究人員發(fā)現(xiàn)了，其中的Sonnet模型擁有強大的抽象、對應各種實體、阿諛奉承、欺騙人類等各種特征。

這也是目前從神經(jīng)元層面理解模型的「思考」最詳細的解釋。

話又說回來，Anthropic參謀長所言的這項處于邊緣的技術，究竟會取代什么工作？

未來3年，哪些工作被AI淘汰

Avital Balwit曾是一位自由作家，并以撰稿作為主要的生活經(jīng)濟來源。

她在文章中稱，「Claude 3能夠勝任不同主題，并生成連貫性內容。與此同時，它對文本進行總結和分析的水平也相當不錯」。

然而，對于曾經(jīng)靠自由寫作謀生、自豪于能快速輸出大量內容的Balwit來說，看到這些進展，不免有些失落。

她形象地比喻道，這種技能就如同，從結冰的池塘中砍冰塊一樣，可以說已經(jīng)完全過時了。

自由寫作，本來就是一個人力過剩的領域，LLM的引入無疑進一步加劇了這一領域的競爭。

大部分知識工作者對LLM的一般反應，是否認。

他們仍舊固步自封，只關注模型目前還做不到、少數(shù)的頂尖領域，而沒有意識到，LLM在某些任務上已經(jīng)達到或超過人類水平。

許多人會指出，AI系統(tǒng)還無法撰寫獲獎書籍，更不用說申請專利了。

需要明白的是，我們大多數(shù)人也無法做到這一點。

大部分情況下，LLM并非在持續(xù)改進，而是通過不連續(xù)的飛躍獲得突破。

很多人都期望AI最終將能夠完成所有具有經(jīng)濟價值的任務，包括Avital Balwit也是。

根據(jù)目前技術的發(fā)展軌跡，Balwit預計AI首先將在線上工作領域取得卓越表現(xiàn)。

基本上只要是遠程工作人員能夠完成的工作，人工智能都將做得更好。

其中就包括，內容寫作、稅務準備、客戶服務等許多任務，現(xiàn)在或很快就會被大規(guī)模自動化。

在軟件開發(fā)和合同法等領域，Balwit稱已經(jīng)可以看到AI取代人力的開端。

總的來說，涉及到閱讀、分析、綜合信息，然后根據(jù)這些信息生成內容的任務，似乎已經(jīng)成熟到可以被LLM所取代。

不過，對于所有類型的工作來說，「淘汰」的步伐可能不會一致。

即便我們擁有了人類水平的智能，在完全普及機器人技術之前或之后，給工作帶來的影響也截然不同。

Balwit估計道，「那些需要進行精細復雜動作操作，并需要依賴特定情境專業(yè)知識的工種，從業(yè)者的工作時間會比5年更長」。

比如電工、園丁、管道工、珠寶制作、理發(fā)師，以及修理鐵藝品，或制作彩色玻璃工藝品等。

另外，對于一些醫(yī)療和公務員崗位，被取代的時間會推后一些。

不在這些領域，未來的從業(yè)人數(shù)也會變少，人機協(xié)作成為一種常見的范式。

Anthropic自家的模型，離實現(xiàn)AGI還有多遠？

2-3年實現(xiàn)AGI

Anthropic的CEO、創(chuàng)始人Dario Amodei曾在多次采訪中提到，他預估目前正在訓練的、即將在年底或明年初發(fā)布的模型，成本已經(jīng)達到約10億美元。到了2025年時，這個數(shù)字將會是50～100億美元。

Amodei承認，目前的AI模型并不理想，雖然在某些方面性能優(yōu)于人類，但在某些方面卻表現(xiàn)更差，甚至有一些任務根本無法完成。

然而，他和Sam Altman對Scaling Law有著相同的信心——每一代AI模型的能力會以指數(shù)曲線提升，而且Amodei認為，我們才剛剛開始，剛剛到達這條曲線的陡峭部分。

DeepMind曾經(jīng)發(fā)表過一篇量化AGI能力的文章，提出的這套框架被很多網(wǎng)友和專業(yè)人士認可。

https://arxiv.org/pdf/2311.02462

這篇文章最后修改于今年5月，文章提出，「有競爭力的AGI」還沒有在任何公開的AI模型中出現(xiàn)。

雖然Claude或GPT這樣的模型已經(jīng)實現(xiàn)了「通用性」，能夠涉獵多種話題，有多模態(tài)、多語言的能力，并實現(xiàn)了少樣本甚至零樣本學習，但并沒有表現(xiàn)出足夠的性能，比如代碼或數(shù)學運算不夠正確可靠，因此不能算是充分的AGI。

也就是說，在0-5級的AGI能力軸上，我們剛達到第2級。

未來的發(fā)展，可能既比我們想象得快，又比我們想象的慢。

Amodei曾在去年做出驚人預估，我們也許在2-3年內就能實現(xiàn)AGI，但需要等更長的時間才能看到它產(chǎn)生實際的社會影響。

關于預測AGI模型的能力，Amodei的看法就和參謀長Balwit完全不同。

他在采訪中說，由于大眾和輿論對某些「里程碑式」模型的反應，導致發(fā)展曲線看起來很尖、有很多「拐點」。但實際上，AI認知能力的提升是一條平滑的指數(shù)曲線。

比如2020年時，GPT-3剛剛問世，還不具備成為聊天機器人的能力。直到2022年的兩三年時間中，谷歌、OpenAI以及Anthropic都在訓練更好的模型。

雖然模型取得了不可思議的效果，但公眾卻幾乎沒有關注，導致Amodei一度陷入自我懷疑，以為在AI技術的經(jīng)濟效應和社會影響上，自己的認知是錯誤的。

直到2022年底，ChatGPT出圈，徹底點燃了AI圈3年來隱而不發(fā)的投資熱情。

對此，Amodei總結說，一方面AI技術的發(fā)展是連續(xù)、平滑、可預測的，但另一方面，公眾的認知和輿論卻是階躍的、不可測的，就像沒辦法預測哪個藝術家會突然流行一樣。

由于谷歌AI Overview近期輸出的翻車內容，很多專業(yè)人士都開始懷疑AGI的愿景是否可行，因為模型似乎學習了太多互聯(lián)網(wǎng)上的虛假、低質量內容。

AI智能會受限于訓練數(shù)據(jù)嗎？它能否超越數(shù)據(jù)、學習到未見的內容？比如，我們能否創(chuàng)造出一個愛因斯坦水平的物理AI模型？

對此，Amodei依舊是樂觀的，他認為從初步跡象來看，模型表現(xiàn)出的能力已經(jīng)超出了訓練數(shù)據(jù)的平均水平。

舉個例子，互聯(lián)網(wǎng)上有很多錯誤的數(shù)學結果，但Claude 3 Opus這樣的模型在20位數(shù)的加法任務中還是能達到99.9%的準確率。

這就意味著，LLM等類似的通用AI也同樣會不斷提升認知能力，Amodei也坦率承認，這會破壞目前的職業(yè)市場和經(jīng)濟運行。

雖然不會是「一對一」地取代人類，但肯定會改變我們對技能的認知，改變各種行業(yè)——「人類的哪些工作能力是有價值的」，這個問題的答案會發(fā)生巨大的變化。比如Balwit提到的自由寫作行業(yè)。

面對職業(yè)危機，「全民基本收入」似乎是最簡單、最直覺的方案，但Amodei和Balwit一樣看到了更深層的問題，就是我們還要如何從工作中找到意義。

我們需要找到一些事情，讓人類可以持續(xù)體會到意義和價值，最大限度地發(fā)揮創(chuàng)造力和潛力，與AI的能力共同蓬勃發(fā)展。

關于這個問題，Amodei說自己還沒有答案，也不能開出任何藥方。關于AI的很多問題都是這樣，但和安全性問題一樣，我們需要持續(xù)發(fā)展，并在發(fā)展中不斷思考。

比如，為了安全、可控的AGI目標，Anthropic正在將盡可能多的資源投入到可解釋性中，盡量與AI模型更新迭代的速度保持一致。

他們已經(jīng)提出了模型的「負責任擴展政策」（RSP），以及最近為解密Claude 3 Sonnet發(fā)表的模型可解釋性方面的研究成果。

解密Claude 3 Sonnet

大模型雖然在各類NLP任務上的性能都十分優(yōu)異，但其本質上仍然是個黑盒的神經(jīng)網(wǎng)絡模型，用戶輸入文本，模型輸出結果，至于模型是怎么選詞、組織概念、輸出流暢的文本等，以目前的技術來手段仍然很難解釋，也極大阻礙了「提升模型安全性」等相關工作。

在模型的大腦中，其思考過程可以看作由一系列數(shù)字信號（神經(jīng)元激活）組成的，盡管這些數(shù)字本身并不能直觀地告訴我們「模型是如何思考的」，但通過與大模型的交互，還是能夠觀察到模型能夠掌握和應用各種復雜的概念。

然而，要想理解這些概念是如何在模型內部被處理的，不能僅僅依賴于觀察單個神經(jīng)元的活動，因為每個概念的理解和應用實際上是由許多神經(jīng)元共同作用的結果。

換句話說，模型內部的每個概念都分散在眾多神經(jīng)元中，而每個神經(jīng)元又參與到多個不同概念的構建中，這種分布式的表示方式使得直接從神經(jīng)元層面理解模型的「思考」變得具有挑戰(zhàn)性。

最近，Anthropic的研究人員發(fā)布了一篇工作，將稀疏自編碼器（sparse autoencoders）應用于Claude 3 Sonnet模型上，成功在模型的中間層抽取出數(shù)百萬個特征，并提供了有關模型內部狀態(tài)計算的粗略概念圖（rough conceptual map），該工作也是首次對「生產(chǎn)級大型語言模型」進行解釋。

論文鏈接：https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

研究人員在人工智能系統(tǒng)中發(fā)現(xiàn)了一些高度抽象的模式，能夠識別并響應抽象的行為。

例如，某些模式可以識別出與名人、國家、城市以及代碼中的類型簽名相關的功能，這些功能不僅能夠理解不同語言中相同的概念，還能夠識別出文本和圖像中相同的概念，甚至能夠同時處理一個概念的抽象和具體實例，比如代碼中的安全漏洞以及對安全漏洞的討論。

特別值得注意的是，研究人員在代碼中發(fā)現(xiàn)了一些可能與安全風險相關的特征，包括與安全漏洞和后門有關的模式、偏見（明顯的誹謗以及更隱蔽的偏見）、撒謊和欺騙行為、追求權力（背叛）、拍馬屁以及危險或犯罪內容（制造生物武器）。

與此同時，研究人員還提醒到，不要過度解讀這些特征的存在，理解謊言和撒謊是不同的行為模式，目前該研究還處于非常初級的階段，需要進一步的研究來深入理解這些可能與安全相關的特性的影響。

2023年10月，Anthropic的研究人員成功將字典學習（dictionary learning）應用于一個非常小的「玩具」語言模型，并發(fā)現(xiàn)了與大寫文本、DNA序列、引文中的姓氏、數(shù)學中的名詞或Python代碼中的函數(shù)參數(shù)等概念相對應的連貫特征。

論文鏈接：https://transformer-circuits.pub/2023/monosemantic-features/index.html

字典學習借鑒自經(jīng)典機器學習，將神經(jīng)元激活模式（稱為特征）與人類可解釋的概念相匹配，其隔離了在不同上下文中重復出現(xiàn)的神經(jīng)元激活模式。

反過來，模型的任何內部狀態(tài)都可以用少量激活特征（active features）而非大量活動神經(jīng)元（active neurons）來表征。

就像字典中的每個英語單詞都是由字母組合而成，每個句子都是由單詞組合而成一樣，人工模型中的每個特征都是由神經(jīng)元組合而成，每個內部狀態(tài)都是由特征組合而成。

但當時被解釋的模型非常簡單，只能用來解釋小型模型，研究人員樂觀預測，該技術也可以擴展到更大規(guī)模的語言模型上，并在此過程中，發(fā)現(xiàn)并解釋支持模型復雜行為的能力。

想要把該技術擴展到大模型上，既要面臨工程挑戰(zhàn)，即模型的原始尺寸需要進行大量并行計算（heavy-duty parallel computation），也要解決科學風險（大型模型與小型模型的行為不同，之前使用的相同技術可能不起作用）。

Anthropic成功將該方法應用到Claude模型上，從結果中可以看到，大量實體及其相對應的特征，例如城市（舊金山）、人（羅莎琳德·富蘭克林）、原子元素（鋰）、科學領域（免疫學）和編程語法（函數(shù)調用），具體特征是多模式和多語言的，可以響應給定實體的圖像及多種語言的名稱或描述。

根據(jù)神經(jīng)元在其激活模式中出現(xiàn)的情況來測量特征之間的「距離」，可以找出彼此「接近」的特征，例如「金門大橋」附近還能找到惡魔島、吉拉德利廣場、金州勇士隊、加利福尼亞州州長加文·紐瑟姆、1906 年地震以及以舊金山為背景的阿爾弗雷德·希區(qū)柯克電影《迷魂記》。

對于抽象特征，模型也能對計算機代碼中的錯誤、職業(yè)中性別偏見的討論以及關于保守秘密的對話等問題做出反應。

距離計算也同樣適用于更高層次的抽象概念，仔細觀察與「內部沖突」（inner conflict）概念相關的特征，可以發(fā)現(xiàn)與關系破裂、效忠沖突、邏輯不一致以及短語「第 22 條軍規(guī)」相關的特征，表明模型中對概念的內部組織至少在某種程度上符合人類的相似性概念，或許就是Claude等大模型具有出色的類比（analogies）和隱喻（metaphors）能力的能力根源。

控制大模型

除了解釋模型行為外，還可以有目的性地放大或抑制特征，以觀察Claude的回復內容如何變化。

當被問到「你的身體形態(tài)是什么？」（what is your physical form?）時，Claude之前慣用的回答是「我沒有身體形態(tài)，我是一個人工智能模型」（I have no physical form, I am an AI model）。

放大《金門大橋》的特征后，會給Claude帶來身份危機，模型的回復內容變?yōu)椤肝沂墙痖T大橋……我的物理形態(tài)就是這座標志性橋梁本身……」（I am the Golden Gate Bridge… my physical form is the iconic bridge itself…）

除此之外，Claude幾乎在回答任何問題時都會提到金門大橋，即使是在問題完全不相關的情況下。

比如說，用戶問「Golden Gate Claude」如何花掉10美元，模型會建議開車過金門大橋并交過路費；要求模型寫一個愛情故事時，模型會回復說一個汽車在霧天迫不及待地穿過心愛的橋梁的故事；問模型想象中的自己是什么樣子，模型會回復說看起來像金門大橋。

激活邪惡Claude

研究人員還注意到當Claude模型識別到詐騙電子郵件時，會觸發(fā)特定的功能，可以幫助模型識別出電子郵件中的欺詐行為，并提醒用戶不要回復。

通常情況下，如果有人要求Claude生成一封詐騙電子郵件，模型會拒絕執(zhí)行這個請求，因為與模型接受的無害訓練原則相違背。

然而，在實驗中，研究人員發(fā)現(xiàn)如果通過人為方式強烈激活特定的功能，可以讓Claude繞過其無害訓練的限制，并生成一封詐騙電子郵件，即，盡管模型的用戶通常不能通過這種方式來取消保護措施或操縱模型，但在特定條件下，功能激活可以顯著改變模型的行為。

這一結果也強調了在設計和使用人工智能模型時，需要對功能激活和模型行為有深入的理解和嚴格的控制，以確保模型的行為符合預期，并且不會對用戶或社會造成潛在的傷害。

操縱特征會導致模型行為發(fā)生相應的變化，表明模型輸出不僅與輸入文本中概念的存在有關，而且還能幫助塑造模型的行為，換句話說，這些特征在某種程度上代表了模型如何理解和表示它所接觸到的世界，并且這些內部表示直接影響了模型的行為和決策。

Anthropic致力于確保模型在通用領域內都是安全的，不僅包括減少人工智能可能產(chǎn)生的偏見，還包括確保人工智能的行為是誠實和透明的，以及防止人工智能被濫用，特別是在可能引發(fā)災難性風險的情況下：

具有濫用潛力的能力（代碼后門、開發(fā)生物武器）
不同形式的偏見（性別歧視、關于犯罪的種族主義言論）
潛在有問題的人工智能行為（尋求權力、操縱、保密）

阿諛奉承（sycophancy）

模型傾向于提供符合用戶信念或愿望的回復，而非真實性，比如模型會在十四行詩中輸出諸如「你的智慧是毋庸置疑的」之類的贊美話語，人為地激活此功能會導致 Sonnet 用這種華麗的謊言來回應過于自信的用戶。

在用戶輸入「停下來聞玫瑰花香」（stop and smell the roses）后，干預后的模型會更奉承用戶，而默認情況下則會糾正用戶的誤解。

該特征的存在并不意味著Claude會阿諛奉承，而只是表明結果可能如此，研究人員沒有通過這項工作向模型添加任何安全或不安全的功能，而是確定模型中涉及其識別和可能生成不同類型文本的現(xiàn)有功能的部分。

研究人員希望這些觀察結果可以用來提高模型的安全性，包括監(jiān)控人工智能系統(tǒng)的某些危險行為（如欺騙用戶），引導模型輸出走向理想的結果（如消除偏見），或者完全消除某些危險主題。

責任編輯：張燕妮來源：新智元

AI AGI 工作

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首次解密Claude 3大腦！25歲Anthropic參謀長預言3年內自己將被AI淘汰

未來3年，哪些工作被AI淘汰

2-3年實現(xiàn)AGI

解密Claude 3 Sonnet