美7000萬人或被取代,Agent光速卷入職場!北大校友、楊笛一新作
1769年,瓦特改進了蒸汽機。
1945年,計算機誕生。
2001年,3G移動網絡開始部署。
這些發明創新徹底改變了人的生活:從農田到工廠,從體力勞動到腦力勞動,從線下工作到線上工作。
2025年,AI智能體來了。這次是好是壞?
AI智能體將帶來規模最大的職場變革:僅在美國,就有多達7000萬名工人即將面臨這場變革。
但幾乎從來沒有人關心他們真正的想法。
在AI加速自動化各種工作的時代,斯坦福大學的研究團隊選擇了另一種路徑:研究美國勞動力中,工人們的意愿與 AI 能力之間的差距。
論文鏈接:https://arxiv.org/abs/2506.06576
博客鏈接:https://futureofwork.saltlab.stanford.edu/
這次,團隊有3大研究發現:
- 職場AI智能體的需求-能力分布圖揭示了AI研究的關鍵錯配現象:41.0%的Y Combinator企業任務集中在低優先級區和自動化「紅燈」區
- 眾多任務需要人機對等協作,但從業者普遍期望更高程度的人類主導權,這一矛盾可能引發摩擦
- 若AI智能體開始進入勞動力市場,人類核心能力或將轉向人際交往與組織協調技能。
「AI真香定律」 這項研究對你很有用
這是跨學科研究團隊:
計算機:Yijia Shao,Humishka Zope,Yucheng Jiang,楊笛一(Diyi Yang)
數字經濟:David Nguyen, Erik Brynjolfsson
計算機+數字經濟:Jiaxin Pei
團隊建立了基于調查的嚴謹評估框架,用于摸清在全美各職業中,AI智能體實現「自動化」和「增強人類能力」的潛力。
利用美國勞工部的數據庫,他們開展了以下工作:
- 調查了104個職業領域的1500名行業專家
- 招募了52名AI研究員和開發者來評估當前AI智能體的能力
基于這些數據,研究人員構建了「AI智能體從業者前景與準備度知識庫」(Worker Outlook & Readiness Knowledge Bank,WORKBank)。
如果不從事AI相關工作,為什么你也應該關心這件事?
因為AI的「真香定律」:「你可能對AI不感興趣,但AI終將對你產生興趣。」
為了指導未來AI智能體的研發,并幫助研究人員人類為未來的工作做好準備,團隊正式發布了WORKBank數據庫的第一個版本。
AI來襲,職場海嘯?
AI正在職場引發革命!
2023年,OpenAI等機構的研究表明,約80%的美國勞動者可能面臨大語言模型(LLM)影響其至少10%的工作任務,其中19%的勞動者超過半數職責或將受到沖擊。
論文鏈接:https://arxiv.org/abs/2303.10130
2025年初,Anthropic分析了LLM使用數據,結論進一步顯示:
在36%的職業中,AI工具已活躍應用于至少25%的工作任務。
論文鏈接:https://arxiv.org/abs/2503.04761
對普通打工人而言,AI到底是福是禍?
這一次AI專家攜手經濟學家,直接從一線從業者反饋獲取洞見。
他們提出了雙視角的審計框架:
一是工人希望AI承擔哪些任務,
二是專家評估AI實際上能勝任哪些任務。
為了幫助參與者準確表達想法,問卷設計了有邏輯引導的問題,并加入音頻訪談,方便他們結合實際工作經驗回答。
基于這個框架,研究團隊構建了WORKBank數據庫,用數據全面描繪需求和影響:
- 工人的實際需求
- 任務能否被AI接手的圖譜(意愿—能力分布)
- 不同任務對人類參與程度的要求(HAS等級)
- 這些變化可能對人類核心技能產生的影響
圖1:審計框架概覽與關鍵發現
打工人的欲望與恐懼
為何不愿讓AI智能體介入工作?
利用AI對工人語音回答進行歸類,研究人員總結了AI自動化最常見的三大擔憂:
- 45%表示:不信任AI系統的準確性、能力或可靠性;
- 23%擔心:AI會取代自己的工作;
- 16.3%認為:AI缺乏「人味」,無法做到人類那種溝通、理解與判斷。
從行業來看,藝術、設計與媒體領域的抵觸情緒最明顯——
在這些領域里,只有17.1%的任務得到了工人的正面自動化評價。這說明,在更依賴創造力與情感表達的工作中,工人對AI的接受度更低。
哪些任務愿意讓AI來做?
研究團隊發現,在約46.1%的任務中,正在從事這些工作的工人表示「愿意讓AI來做」。
即便是在被提醒要考慮「失業風險」或「工作變得無聊」之后,他們依然在問卷中打了超過3分(滿分5分)的支持評分,說明這些任務更容易被接受自動化。
自動化意愿評分在任務中的分布。縱軸為工人對任務自動化的意愿評分(1到5分),橫軸為844項任務的排名
上圖顯示,有46.1%的任務評分高于3分,表示工人對這些任務由AI自動完成持積極態度。
排名前3的任務包括:
- 報稅員:安排客戶預約(5.00分)
- 公共安全通信員:維護緊急呼叫相關信息檔案(4.67分)
- 考勤文員:記錄并調整因錯誤造成的工資問題(4.60分)
評分最低的3個任務則是:
- 編輯:撰寫文章、社論或通訊稿(1.60分)
- 物流分析師:聯系供應商了解物料情況(1.50分)
- 售票與旅行服務員:追蹤客戶行李丟失或延誤情況(1.50分)
為什么工人希望讓AI來接手工作?
研究團隊調查了支持自動化的工人為什么愿意讓AI來幫忙——通過多選題和自由回答兩種方式。
最常見的理由是:「可以把時間騰出來,去做更有價值的工作」,這項理由被69%的人選中。
其他常見原因包括:任務太重復(47%)、太累太有壓力(26%)、或者希望通過AI提升工作質量(47%)。
從工人和專家的評分對比中,研究人員把任務大致分成了四個區域:
- 綠燈區:工人想交給AI,AI技術也能勝任。是最理想的自動化對象,有望帶來效率與社會效益雙贏。
- 紅燈區:AI技術沒問題,但工人不愿意。這類任務部署AI要小心,容易引發抵觸或更大爭議。
- 研發機會區:工人很希望AI來做,但現在AI還做不到。是未來技術突破的重點方向。
- 低優先級區:工人不想交給AI,AI也還做不到。暫時不是AI發展的重點。
意愿—能力圖譜
這張「意愿—能力圖譜」幫助識別出哪些任務值得重點投入。
但當把YC旗下的創業公司與這些任務匹配時,研究人員發現:目前的投資并未優先關注「綠燈區」或「研發機會區」。反而有約41%的YC公司集中在「紅燈區」或「低優先級區」這些不太受歡迎或技術難度高的任務。
換句話說,許多「技術可行+工人也歡迎」的任務,其實并沒有得到應有的重視。
這提醒我們:AI的發展不僅要看技術本身,也要看人們真正想要什么。
人機協作 不只替代,AI更是搭檔
AI智能體對工作的影響并非簡單的「自動化」或「非自動化」這樣的二選一問題。
為此,研究人員引入了「人類能動性等級」(Human Agency Scale):包含 5 個等級的量表,涵蓋了從「完全自動化」到「人機協作增益」之間的各種狀態——
在后一種狀態下,技術主要用于補充和增強人類的能力。
H1:AI能完全獨立完成任務,無需人參與。
H2:AI能完成大部分任務,偶爾需要人類輸入。
H3:AI和人類平等協作,效果優于任何一方單獨完成。
H4:AI必須依賴人類才能完成任務。
H5:AI無法獨立完成任務,必須全程由人主導。
這一等級體系不是說「越高越好」,而是用來匹配不同任務的實際需求。
下圖2展示了這五個等級在不同任務中的具體例子,比如哪些任務適合完全交給 AI,哪些則需要人機長期協作。
HAS不僅能讓人更清楚地理解「AI適合做什么」,也為打工人準備未來技能、開發者設計更合理的AI智能體提供了清晰的參考。
總體上,工人更傾向于較高水平的人類參與,這可能預示著隨著AI能力增強,會產生一定的摩擦。
在調查的104種職業中,有47種工人最傾向的等級是H3——也就是「人機平等協作」。
這說明,很多工人并不想讓AI全面接管工作,而是希望AI成為有力的合作伙伴。
不過,也出現了值得注意的現象:在將近一半(47.5%)的任務中,工人希望的「人類參與度」遠超專家估計。
更極端的是,有16.4%的任務,工人希望的等級高出專家評估兩個檔次。這意味著,哪怕AI已經技術上「能做」,很多工人還是不放心、不愿放手。
人類能動性程度在同一職業內部也存在差異,有些任務適合自動化,有些則不然。
這也提醒開發者:在設計AI智能體時,不能一刀切。
為未來做好準備
并不是所有類型的工作都會同樣受到AI的影響。
為了理解未來工作的走向,以及哪些技能將變得最有價值,研究團隊進一步利用 WORKBank數據庫來分析人類技能的變化趨勢。
最后發現了三項可能影響未來人類工作的趨勢:
- 對信息處理類技能的需求正在減弱。它們在那些人類參與度高的任務中出現較少。
- 人際溝通與組織管理類技能正變得更重要。它們在高HAS等級的任務中更為常見。
- 高人類參與度的技能涵蓋多種維度。平均人類參與度最高的前十項技能,跨越了人際、組織、決策與判斷等多個方面。
作者介紹
Yijia Shao是斯坦福大學的博士生,師從楊笛一教授。
此前,她在北京大學元培學院獲得學士學位。
她曾在微軟亞洲研究院、谷歌Tensorflow Lite團隊實習。
她的研究方向為機器學習與自然語言處理。