Claude 4要來(lái)了?Anthropic發(fā)布38頁(yè)經(jīng)濟(jì)指數(shù)報(bào)告,43%人類工作正被AI取代!
Claude 3.5 Opus無(wú)了,Anthropic本周可能會(huì)提前放出Claude 4。
網(wǎng)友爆料稱,除了Claude 4,還有推理模型也將首亮相,評(píng)分全面超越o3。
Anthropic已經(jīng)沉寂太久了,去年曾被傳出內(nèi)部模型研發(fā)受阻。
不久前,或許因?yàn)镈eepSeek的沖擊,OpenAI、谷歌密集上新了新模型全家桶。
這次Anthropic要直接來(lái)一波大的:評(píng)分超越「滿血」o3,那可是目前公認(rèn)的比DeepSeek-R1強(qiáng)的對(duì)手!
同一天,他們還發(fā)布了「Anthropic經(jīng)濟(jì)指數(shù)」報(bào)告,全文38頁(yè)全面分析了數(shù)百萬(wàn)匿名Claude對(duì)話,從中揭示了AI在各個(gè)職業(yè)的應(yīng)用現(xiàn)狀。
Anthropic認(rèn)為在未來(lái)幾年,AI對(duì)人們的工作將產(chǎn)生重大影響,最新報(bào)告旨在長(zhǎng)期追蹤AI對(duì)勞動(dòng)力市場(chǎng)和經(jīng)濟(jì)的影響。
論文鏈接:https://assets.anthropic.com/m/2e23255f1e84ca97/original/Economic_Tasks_AI_Paper.pdf
AI將自動(dòng)化43%工作
在這篇報(bào)告中,Anthropic從任務(wù)類型、使用深度、職業(yè)技能、收入水平等角度,討論了AI對(duì)不同職業(yè)不同群體的影響。
主要結(jié)論如下:
- AI的使用主要集中在軟件開(kāi)發(fā)和寫(xiě)作任務(wù)上,這兩者占總使用量的近50%。
- AI的使用范圍更廣泛,約有36%的職業(yè)在至少四分之一的相關(guān)任務(wù)中使用AI;在中等至高收入的工作中使用最為普遍。
- 在各類任務(wù)中,57%的使用表明AI在增強(qiáng)人類能力,而43%的使用表明在取代人類勞動(dòng),即工作自動(dòng)化。
更值得一提的是,Cluade編碼和數(shù)學(xué)占所有使用量1/3(37.2%)。
為什么發(fā)布「經(jīng)濟(jì)指數(shù)」?
基于Claude.ai平臺(tái)上數(shù)百萬(wàn)條匿名對(duì)話數(shù)據(jù),該指數(shù)的首份報(bào)告提供了前所未有的分析和洞察,揭示在現(xiàn)代經(jīng)濟(jì)的各類任務(wù)中,如何實(shí)際應(yīng)用AI。
迄今為止,這是關(guān)于AI融入現(xiàn)實(shí)經(jīng)濟(jì)活動(dòng)的最清晰圖景。
為了推動(dòng)更廣泛的研究,Anthropic決定開(kāi)源本次分析所使用的數(shù)據(jù)集,供研究人員在此基礎(chǔ)上進(jìn)一步探索和擴(kuò)展。
項(xiàng)目地址:https://huggingface.co/datasets/Anthropic/EconomicIndex
面對(duì)勞動(dòng)力市場(chǎng)即將到來(lái)的轉(zhuǎn)型及其對(duì)就業(yè)和生產(chǎn)力的影響,制定有效的政策措施需要多方視角,統(tǒng)籌兼顧。
因此,Anthropic誠(chéng)摯邀請(qǐng)經(jīng)濟(jì)學(xué)家、政策專家及其他研究人員提供寶貴意見(jiàn)。
數(shù)據(jù)分析方法:將對(duì)話和職業(yè)關(guān)聯(lián)
新論文基于對(duì)技術(shù)影響勞動(dòng)力市場(chǎng)的長(zhǎng)期研究,從工業(yè)革命時(shí)期的珍妮紡紗機(jī)到當(dāng)今的汽車制造機(jī)器人。
關(guān)注AI(AI)的持續(xù)影響。新研究不調(diào)查人們的AI使用情況,也不嘗試預(yù)測(cè)未來(lái);相反,直接獲取了AI實(shí)際使用的數(shù)據(jù)。
分析職業(yè)任務(wù)
新研究始于經(jīng)濟(jì)學(xué)文獻(xiàn)中的重要洞見(jiàn):有時(shí)候,關(guān)注職業(yè)任務(wù)而非職業(yè)本身,也有意義。
工作通常共享某些任務(wù)和技能:例如,視覺(jué)模式識(shí)別是設(shè)計(jì)師、攝影師、安檢員和放射科醫(yī)生共同完成的任務(wù)。
某些任務(wù)比其他任務(wù)更適合被新技術(shù)自動(dòng)化或增強(qiáng)。
因此,預(yù)計(jì)AI會(huì)在不同職業(yè)中有選擇地被采用,分析任務(wù)(而不僅僅是整體工作)將提供一個(gè)更全面的圖景,展示AI如何融入經(jīng)濟(jì)。
使用Clio匹配AI使用與任務(wù)
這項(xiàng)研究得以實(shí)現(xiàn),依靠的是Clio系統(tǒng)。在保護(hù)用戶隱私的同時(shí),它可以分析與Claude的對(duì)話。
新研究分析了約一百萬(wàn)次與Claude的對(duì)話(包括Free和Pro版本的對(duì)話),并按職業(yè)任務(wù)對(duì)對(duì)話進(jìn)行分類。
美國(guó)勞工部維護(hù)著一個(gè)包含約20,000項(xiàng)具體工作任務(wù)的數(shù)據(jù)庫(kù),稱為職業(yè)信息網(wǎng)絡(luò)(O*NET)。
在線職業(yè)分類:https://www.onetonline.org/
根據(jù)美國(guó)勞工部的分類選擇任務(wù),Clio將每次對(duì)話與最能代表對(duì)話中AI角色的O*NET任務(wù)進(jìn)行匹配。
Clio系統(tǒng)將與Claude的對(duì)話(嚴(yán)格保密,位于下圖頂部左側(cè))轉(zhuǎn)化為職業(yè)任務(wù)(下圖頂部中間),并進(jìn)一步映射到O*NET提供的職業(yè)/職業(yè)類別(頂部右側(cè))。
隨后,這些數(shù)據(jù)可以輸入到多種分析中(下圖底部一行)。
最后,按照O*NET的分類方案,將任務(wù)分組到它們最能代表的職業(yè)中,并將職業(yè)分組到一小組總體類別中:教育和圖書(shū)館、商業(yè)和金融等。
算法流程總結(jié)
具體結(jié)果
對(duì)不同職業(yè)影響
采用AI最多的任務(wù)和職業(yè)是「計(jì)算機(jī)與數(shù)學(xué)」類別,主要涵蓋了軟件工程角色。
37.2%的Claude查詢屬于這一類別,涉及的任務(wù)包括軟件修改、代碼調(diào)試和網(wǎng)絡(luò)故障排除。
第二大類別是「藝術(shù)、設(shè)計(jì)、體育、娛樂(lè)和媒體」(10.3%的查詢),主要反映了使用Claude進(jìn)行各種寫(xiě)作和編輯任務(wù)。
不出所料,涉及大量體力勞動(dòng)的職業(yè),如「農(nóng)業(yè)、漁業(yè)和林業(yè)」類別(0.1%的查詢),在數(shù)據(jù)中表現(xiàn)最少。
新研究還將數(shù)據(jù)中的比例與各職業(yè)在整體勞動(dòng)力市場(chǎng)中的出現(xiàn)率進(jìn)行了比較,詳細(xì)結(jié)果如下圖所示。
職業(yè)內(nèi)部AI使用程度
分析發(fā)現(xiàn),在工作中AI的重度用戶集中在極少數(shù)職業(yè):僅約4%的職業(yè)在至少75%的任務(wù)中使用AI。
AI的中等使用率更為普遍:大約36%的職業(yè),在至少25%的任務(wù)中一定程度地使用AI。
AI在經(jīng)濟(jì)中的應(yīng)用分布:基于Claude.ai的真實(shí)使用數(shù)據(jù)。數(shù)據(jù)中的百分比表示與Claude的對(duì)話中涉及特定任務(wù)、職業(yè)及類別的比例。
AI在經(jīng)濟(jì)中的應(yīng)用分布:基于Claude.ai的真實(shí)使用數(shù)據(jù)。數(shù)據(jù)中的百分比表示與Claude的對(duì)話中涉及特定任務(wù)、職業(yè)及類別的比例
正如預(yù)測(cè)的那樣,數(shù)據(jù)中沒(méi)有證據(jù)表明職業(yè)被完全自動(dòng)化:相反,AI在經(jīng)濟(jì)中的許多任務(wù)中得到了廣泛應(yīng)用,對(duì)某些任務(wù)群體的影響比其他任務(wù)群體更大。
AI使用與薪資
O*NET數(shù)據(jù)庫(kù)提供了各個(gè)職業(yè)在美國(guó)的中位薪資。
研究者將這一信息加入分析,從而比較不同職業(yè)的中位薪資與其任務(wù)中AI使用水平之間的關(guān)系。
有趣的是,低薪職業(yè)和高薪職業(yè)的AI使用率都較低(這些職業(yè)通常涉及大量手工操作,例如洗發(fā)師和產(chǎn)科醫(yī)生)。
而AI使用最廣泛的職業(yè)主要集中在中等至較高薪資范圍內(nèi),例如計(jì)算機(jī)程序員和文案撰寫(xiě)人。
年薪(x軸)與涉及該職業(yè)的對(duì)話百分比(y軸)的關(guān)系。一些具有代表性的職業(yè)被突出顯示
自動(dòng)化vs.增強(qiáng)
研究者還更詳細(xì)地分析了任務(wù)的執(zhí)行方式。
他們關(guān)注了哪些任務(wù)屬于「自動(dòng)化」(即AI直接執(zhí)行任務(wù),如格式化文檔),以及哪些任務(wù)屬于「增強(qiáng)」(即AI與用戶協(xié)作完成任務(wù))。
總體來(lái)看,AI在任務(wù)執(zhí)行上更傾向于增強(qiáng)模式,57%的任務(wù)屬于增強(qiáng),43%的任務(wù)屬于自動(dòng)化。
也就是說(shuō),在超過(guò)一半的情況下,AI并未取代人類完成任務(wù),而是與人類協(xié)作,參與諸如驗(yàn)證(例如核對(duì)用戶的工作)、學(xué)習(xí)(例如幫助用戶獲取新知識(shí)和技能)以及任務(wù)迭代(例如幫助用戶進(jìn)行頭腦風(fēng)暴或執(zhí)行重復(fù)的生成性任務(wù))等工作。
Claude對(duì)話中涉及增強(qiáng)與自動(dòng)化的比例,以及每個(gè)類別內(nèi)任務(wù)子類型的分解
38頁(yè)報(bào)告中,還覆蓋了其他一些有趣的數(shù)據(jù)。
下圖4中展示了不同職業(yè)中,人工智能使用深度的分析。約36%的職業(yè)至少在25%的任務(wù)中使用AI,僅約4%的職業(yè)在75%或更多的任務(wù)中使用AI。
這表明了,在大多數(shù)職業(yè)中,人工智能的整合仍然是選擇性的,而非全面性的。
圖5展示的是,與Claude對(duì)話用戶職業(yè)技能的分布。
批判性思維、寫(xiě)作、編程等技能在對(duì)話中出現(xiàn)頻率較高,而設(shè)備維護(hù)、安裝等手工技能則較為罕見(jiàn)。
圖8所展示的是,Claude Sonnet 3.5(新版)和Claude Opus模型之間任務(wù)使用模式的比較分析,展示了人們偏好差異。
前者在編碼和技術(shù)任務(wù)方面表現(xiàn)出更多的使用量,而后者則更多用于創(chuàng)意寫(xiě)作和教育內(nèi)容開(kāi)發(fā)。
任務(wù)層級(jí)使用狀況
如上所述,研究人員用Clio創(chuàng)建了一個(gè)任務(wù)層級(jí)體系,將對(duì)話匹配到最適合的O*NET任務(wù)。
在頂層(圖11),可以看到:
- IT、技術(shù)及相關(guān)任務(wù)占主導(dǎo)地位(對(duì)話量占比近50%)
- 第二層是創(chuàng)意和文化工作,與藝術(shù)、文化和宗教文物創(chuàng)作和保護(hù)相關(guān)的任務(wù)(約占20%)
- 商業(yè)管理、金融和客戶服務(wù)運(yùn)營(yíng)構(gòu)成第三大類別(約占5%)
- 其余類別各自占比均不超過(guò)15%
- 醫(yī)療服務(wù)和環(huán)境系統(tǒng)的代表性較低,各自占比不到5%
在中層級(jí)(圖12),數(shù)據(jù)揭示了更細(xì)化的任務(wù)模式:
- 軟件開(kāi)發(fā)和網(wǎng)站維護(hù)是最普遍的活動(dòng)(約占14%)
- 計(jì)算機(jī)系統(tǒng)編程和調(diào)試緊隨其后(約占11%)
- 系統(tǒng)管理、硬件/軟件故障排除和文檔發(fā)布流程(各占4-6%)
- 市場(chǎng)營(yíng)銷/推廣策略、網(wǎng)絡(luò)優(yōu)化、學(xué)術(shù)輔導(dǎo)和公關(guān)管理雖然出現(xiàn),但頻率較低(各約占2-3%)
- 數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)應(yīng)用(約占2%)
在基礎(chǔ)層級(jí)(圖13),可以看到高度具體的技術(shù)操作:
- 軟件修改和錯(cuò)誤修正活動(dòng)占主導(dǎo)地位,其中以適應(yīng)新硬件或改進(jìn)性能為重點(diǎn)的任務(wù)出現(xiàn)最頻繁
- 初始調(diào)試程序、系統(tǒng)管理和硬件/軟件故障排除是下一組最常見(jiàn)的活動(dòng)
- 文檔編輯和程序分析任務(wù)出現(xiàn)頻率較低,但仍構(gòu)成對(duì)話的重要部分
注意!
新研究提供AI如何改變勞動(dòng)力市場(chǎng)的獨(dú)特視角。
然而,與所有研究一樣,它也存在重要的局限性。以下是一些主要的注意事項(xiàng):
- 任務(wù)用途不明確:無(wú)法確定使用Claude完成任務(wù)的人是否是為了工作。例如,向Claude尋求寫(xiě)作或編輯建議的人可能是為了工作,也可能是為了業(yè)余寫(xiě)作的小說(shuō)。
- 響應(yīng)使用方式不明確:不知道用戶如何使用Claude的響應(yīng)。例如,他們是否復(fù)制粘貼代碼片段?他們是否核實(shí)響應(yīng)還是不加批判地接受?
- 數(shù)據(jù)來(lái)源有限:僅分析了Claude.ai免費(fèi)和專業(yè)版的數(shù)據(jù),而非API、團(tuán)隊(duì)或企業(yè)用戶的數(shù)據(jù)。
- 任務(wù)分類誤差:由于任務(wù)種類繁多,Clio可能會(huì)錯(cuò)誤分類一些對(duì)話。
- 創(chuàng)意用途未涵蓋:Claude無(wú)法生成圖像(除通過(guò)代碼間接生成外),因此創(chuàng)意用途在數(shù)據(jù)中未被引用。
- 編碼用例可能過(guò)度代表:由于Claude被宣傳為用于編碼的頂尖模型,編碼用例可能在數(shù)據(jù)中被過(guò)度代表。因此,我們不認(rèn)為數(shù)據(jù)集中的用例代表了人工智能的普遍使用情況。
結(jié)論與未來(lái)
人工智能的使用正在迅速擴(kuò)展,模型的能力也在不斷提升。勞動(dòng)力市場(chǎng)的面貌可能在短時(shí)間內(nèi)發(fā)生顯著變化。
因此,Anthropic將不斷重復(fù)上述分析,以幫助跟蹤可能發(fā)生的社會(huì)和經(jīng)濟(jì)變化,并定期發(fā)布結(jié)果和相關(guān)數(shù)據(jù)集。
這種縱向分析可以為提供關(guān)于AI和就業(yè)市場(chǎng)的新見(jiàn)解。
例如,可以監(jiān)測(cè)職業(yè)內(nèi)部AI使用深度的變化。如果人工智能僅用于特定任務(wù),且只有少數(shù)職業(yè)在大多數(shù)任務(wù)中使用人工智能,那么未來(lái)可能是大多數(shù)現(xiàn)有職業(yè)演變而非消失。
還可以監(jiān)測(cè)自動(dòng)化與增強(qiáng)的比例,了解自動(dòng)化在哪些領(lǐng)域變得更為普遍。
注意新研究只是對(duì)AI模型Claude的對(duì)話數(shù)據(jù)分析,并沒(méi)有提供政策建議。
如何做好為AI對(duì)勞動(dòng)力市場(chǎng)的影響的準(zhǔn)備,不能僅從研究中直接得出,而是需要結(jié)合證據(jù)、價(jià)值觀和廣泛的經(jīng)驗(yàn)。