成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Trump當選概率有多大?UC伯克利CAIS聯手打造「AI預言家」,吊打人類分析師

人工智能
AI的能力終于癲成了和這個世界匹配的樣子——來自UCB等機構的研究者們用GPT-4o,開發出了一個「AI預言家」。

LLM的神奇職能,又多了一個。

用更形象的話說,就是中國的「算命簽」、歐洲的「水晶球」,可以用「超人」的能力預測未來。

去年12月,Nature就刊登了一篇研究,可以用LLM預測一個人生活中即將發生的事件,就像預測句子中的next token一樣。

圖片圖片

實驗結果表明,這個模型甚至能預測一個人未來4年內死亡的可能性,準確率高達78.8%。

最近,AI安全中心總監Dan Hendrycks聯合加州大學伯克利分校的研究人員,開發了一個更強大的系統FiveThirtyNine,預測更宏觀的社會事件,比如「Trump能否贏得2024年大選」。

圖片圖片

這個AI預測機器人基于GPT-4o構建,用戶輸入想查詢的事件,FiveThirtyNine就能預測出發生的概率,就像天氣預報中給出的下雨概率一樣。

那么預測的準確度和可信度如何?

知名作家、民意調查師Nate Silver最近在一檔節目上表示,AI不會很快取代人類預測分析師的能力。想看到超人的預測能力,起碼要等15年。

圖片圖片

Nate Silver最新預測:Trump有64%的獲勝幾率

但這個項目的作者表示不服,他們表示,539的表現好過經驗豐富的人類預報員單打獨斗,大致和一群預報員合作的表現相當,甚至更好。

因此,分析預測市場很快就能通過AI實現自動化!

從項目Demo中也能發現,539能夠預測的事件范圍也很廣泛,比如美國大選是政壇事件,其他領域包括生物安全、AI技術、環境健康、網絡安全等也都能預測。

圖片圖片

原文地址:https://www.safe.ai/blog/forecasting

Demo地址:https://forecast.safe.ai/

除了放出博客文章和Demo,研發團隊還計劃出一篇詳細的技術報告,雖然還沒完稿,但坑位已經占上了,感興趣的朋友可以期待下。

圖片圖片

原文地址:https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view

為什么給這個機器人取名叫FiveThirtyNine?

原作者特地發推解釋,原來是想致敬著名的民意預測員Nate Silver,但又要表示AI的能力比他強,因此本來計劃取名為Nate Gold。

但沒得到本人同意,只好借用他twitter名的后綴538,再+1表示「迭代」一版,就得到了539。

FiveThirtyNine工作原理

這里,簡單總結下FiveThirtyNine的工作原理。

舉個例子,如果向FiveThirtyNine詢問「Trump會贏得2024年美國總統大選嗎?」。

接收了這一Prompt的FiveThirtyNine,就如同一個AI預言家一樣,會借助搜索引擎檢索相關的新聞和文章,整合信息并做出預測。

基于GPT-4o的FiveThirtyNine的預測示例基于GPT-4o的FiveThirtyNine的預測示例

Prompt的內容也是很重要的,可能是為了復現方便,作者給出了實驗中使用的prompt模板。

圖片圖片

在充足的先驗知識的基礎上,FiveThirtyNine首先會依據事實總結歸納。

對一件事的Yes/No兩方面,539會分別給出支持或反對的理由,再依據重要性分配相應的權重,可解釋性拉滿了。

圖片圖片

比如,預測Trump當選的論據包括:票倉強勁、支持率經常被低估、剛獲得的法律豁免權、他主張的經濟復蘇措施等等。

圖片圖片

反面的論據也有5個,同樣現實且有力,包括Harris民意調查領先、籌款優勢和關鍵人群的支持,以及Trump本人的極化傾向和法律挑戰。

總結這些論據后,FiveThirtyNine還會「酌情處理」消極新聞、抓馬事件和聳人聽聞的偏見,整合多重因素,給出一個初步的概率。

圖片圖片

最后,它還需要對這個概率值進行理性分析,結合推理進一步優化,并給出校準后的概率——在本例中為52%。

圖片圖片

AI預言家優于市場預測

為了測試AI預言家的表現,作者們借助Metaculus平臺的問題對其進行了評估。

為了比較的公正性,AI預言家與人工預言家使用相同的信息。

值得注意的是,GPT-4o的數據僅囊括2023年10月之前的,因此研究者將新聞和文章都限定在該日期前,要求539和人類分別計算Metaculus中177個事件發生的概率。

針對這177個事件,Metaculus自身模型的預測準確率為87.0%,而FiveThirtyNine將其提升至87.7%±1.4。

相對于市場預測,AI預言家具有多種其無法比擬的優勢。如,它能在幾秒內快速生成預測,速度比當前市場預測高了幾個數量級。

不僅速度更快,還不需要額外的獎勵機制去優化預測,在精度相當的情況下,顯然AI預言家更具性價比。

局限性

雖然作者放話表示,AI預言家已經優于人類預測員,但這個機器人依舊存在不少工程和性能上的局限性。

比如,539依舊會對無效查詢做出回應,因為作者還沒給它加上拒絕功能。

實時更新知識庫這方面,也有顯著的缺陷,畢竟它還沒能接上推特的API。

5G沖浪的網友可以馬上知道推特上的熱門事件,但如果涉及到預訓練所用的知識庫盲區,539就一無所知。

比如,剛剛完成預訓練的539還不知道Joe Biden已經退選,如果不重新過一遍知識庫,依舊會傻傻地預測Biden當選的概率。

圖片圖片

尤其是對于那些迫在眉睫、即將見分曉的事件,這種遲鈍的反應是完全比不上人類的。

更重要的是,當前的「AI預言家」沒有經過微調,還未達到最優精度,僅僅是依據工程化的Prompt檢索并撰寫總結報告。

圖片圖片

可通過單擊forecast.safe.ai中的齒輪圖標找到它的prompt

此外,「自動化偏見」(automation bias)也是一個重要的問題,推特評論區也有網友問到。

圖片圖片

「自動化偏見」是社會心理學領域的發現,即人類傾向于過度依賴自動化系統的建議,而忽略而忽略非自動化方式產生的矛盾信息,即使這些信息是正確的。

作者表示,這個問題或許可以通過優化界面來改進或避免。

盡管機器人在廣度、速度和準確性方面通常表現優異,但在某些特定方面,它依舊比不上人類。

比如在非常依賴專業知識的金融領域,539對市場的預測能力還沒有被驗證。

它的預測還可能忽視尾部風險,造成「自證預言」。如果改進這一缺陷,AI預言家的預測精度可能會得到極大的提升。

研究者稱,最初將其稱為超人,并不是指它在各個方面都無懈可擊,只是想表達AI預言家的預測能力并不比人類遜色。

就像何愷明大神也會宣稱PReLU網絡在ImageNet上有「超人性能」一樣,雖然也會犯人類不可能犯的錯誤,但不耽誤AI在某些方面匹配甚至超越人類表現。

圖片圖片

「AI預言家」能干什么

如果說,以維基百科為代表的認知技術,推動了人類參與知情討論、維持現實共識,以及構建共同的世界觀,那么未來AI的用途,可能會走得更遠。

作為中立的智能第三方,「AI預言家」或許可以改進決策和公共話語,有助于緩和極端、立場兩極分化的事件。

完善聊天機器人功能

將AI預測功能集成到AI聊天機器人或個人AI助手中,可以輔助決策、規避風險。

例如,可以為政策制定者們提供值得信賴、公正的概率評估,還可以幫助量化專家規避風險。

圖片圖片

補充新聞報道

AI預言家還可用來補充新聞報道,比如幫助預測加州AI安全法案SB 1047成功簽署的可能性。

圖片圖片

美國著名天文學家Carl Sagan曾說過,「如果單純積累力量而不增長智慧,人類必定會走向自我毀滅的道路」。

不可否認,未來AI技術將不斷變強,而其所具備的預測能力也有望為我們提供預警式和啟發式的建議。

網友評論

「AI預言家」這個項目可以說是看點十足,很能吸引眼球,但推特上的網友大多持負面評論。

有人認為這只是給GPT-4o套了個殼、做了點提示工程,本質上是一個「新聞閱讀器」的應用。

圖片圖片

還有人指責作者「路走歪了」,除了炒作,這類項目完全看不到價值或實際功用。

圖片圖片

此外,也有技術方面的質疑。

因為作者提到,在評估時允許機器人接入互聯網,在有日期截斷的前提下,防止它得知事件結果。

但「日期截斷」這個功能完全不可靠,反例一抓一大把,因此評估結果也是靠不住的。

圖片圖片

其中的技術含量究竟有多少?所謂「超越人類表現」的評估結果到底能告訴我們什么?

看來只有等技術報告發布后才能得知了。

參考資料:

https://www.safe.ai/blog/forecasting

https://x.com/DanHendrycks/status/1833152719756116154

責任編輯:武曉燕 來源: 新智元
相關推薦

2022-03-28 13:25:42

AI扶貧機器之心

2025-06-11 09:08:00

AI模型數據

2025-06-16 09:12:00

2023-08-15 14:18:19

智能研究

2025-05-06 15:31:55

智能模型AI

2023-04-04 13:17:00

GPUCMU開源

2015-06-08 10:03:10

Google人類大腦聯網

2025-01-22 15:21:00

2012-11-20 10:34:06

大數據云計算預言

2023-04-07 09:28:31

模型訓練

2025-04-18 08:42:52

模型推理AI

2024-04-07 00:45:00

開源模型

2023-05-04 14:55:02

模型AI

2023-12-16 09:49:18

2023-08-05 13:45:46

模型AI

2024-09-23 14:46:27

2025-02-11 16:17:42

2023-03-31 13:55:00

模型智能

2023-11-14 07:47:42

IGN擴散模型

2021-07-19 16:25:50

人工智能語音安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色婷婷亚洲一区二区三区 | 免费日韩av网站 | 一区视频在线免费观看 | 国产一区 日韩 | 日韩一区二区福利视频 | 久久久久无码国产精品一区 | 91精品久久久久久久久 | 日韩精品一区二区不卡 | 我爱操| 日韩免费中文字幕 | 国产激情91久久精品导航 | 97av视频在线观看 | 97视频精品 | 人人鲁人人莫人人爱精品 | 91一区二区在线观看 | 国产精品国产成人国产三级 | 呦呦在线视频 | 一区二区三区四区免费在线观看 | 亚洲天堂影院 | 欧美成人hd | 一级毛片,一级毛片 | 成年人在线观看 | 欧美一区二区免费视频 | 亚洲精品丝袜日韩 | 99这里只有精品 | 中文字幕三区 | 日韩一区二区视频 | 午夜性色a√在线视频观看9 | a级免费黄色片 | 黄色网络在线观看 | 免费一区二区三区 | 亚洲性网| 午夜男人的天堂 | 国产精品精品视频一区二区三区 | 日韩成人在线免费观看 | japan25hdxxxx日本| 特级做a爰片毛片免费看108 | 日韩欧美三级电影 | 国产情侣激情 | 久久久久久亚洲 | 国产美女特级嫩嫩嫩bbb片 |