成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

00后國人論文登Nature,大模型對人類可靠性降低

人工智能 新聞
在Scaling-up中,近幾年的benchmarks越來越偏向于加入更多困難的例子,或者給予所謂“權(quán)威”來源更多權(quán)重,研究員也因此更傾向于優(yōu)化模型在困難任務(wù)上的表現(xiàn),導(dǎo)致在難度一致性上慢性惡化。

00后國人一作登上Nature,這篇大模型論文引起熱議。

簡單來說,論文發(fā)現(xiàn):更大且更遵循指令的大模型也變得更不可靠了,某些情況下GPT-4在回答可靠性上還不如GPT-3

與早期模型相比,有更多算力和人類反饋加持的最新模型,在回答可靠性上實際愈加惡化了。

結(jié)論一出,立即引來20多萬網(wǎng)友圍觀:

圖片

在Reddit論壇也引發(fā)圍觀議論。

圖片

這讓人不禁想起,一大堆專家/博士級別的模型還不會“9.9和9.11”哪個大這樣的簡單問題。

關(guān)于這個現(xiàn)象,論文提到這也反映出,模型的表現(xiàn)與人類對難度的預(yù)期不符

換句話說,“LLMs在用戶預(yù)料不到的地方既成功又(更危險地)失敗”。

Ilya Sutskever2022年曾預(yù)測:

也許隨著時間的推移,這種差異會減少。

然而這篇論文發(fā)現(xiàn)情況并非如此。不止GPT,LLaMA和BLOOM系列,甚至OpenAI新的o1模型和Claude-3.5-Sonnet也在可靠性方面令人擔(dān)憂。

更重要的是,論文還發(fā)現(xiàn)依靠人類監(jiān)督來糾正錯誤的做法也不管用。

有網(wǎng)友認(rèn)為,雖然較大的模型可能會帶來可靠性問題,但它們也提供了前所未有的功能。

我們需要專注于開發(fā)穩(wěn)健的評估方法并提高透明度。

圖片

還有人認(rèn)為,這項研究凸顯了人工智能所面臨的微妙挑戰(zhàn)(平衡模型擴展與可靠性)。

圖片

更大的模型更不可靠,依靠人類反饋也不管用了

為了說明結(jié)論,論文研究了從人類角度影響LLMs可靠性的三個關(guān)鍵方面:

1、難度不一致:LLMs是否在人類預(yù)期它們會失敗的地方失?。?br>2、任務(wù)回避:LLMs是否避免回答超出其能力范圍的問題?
3、對提示語表述的敏感性:問題表述的有效性是否受到問題難度的影響?

更重要的是,作者也分析了歷史趨勢以及這三個方面如何隨著任務(wù)難度而演變。

下面一一展開。

對于第1個問題,論文主要關(guān)注正確性相對于難度的演變。

從GPT和LLaMA的演進來看,隨著難度的增加,所有模型的正確性都會明顯下降。(與人類預(yù)期一致)

然而,這些模型仍然無法解決許多非常簡單的任務(wù)。

這意味著,人類用戶無法發(fā)現(xiàn)LLMs的安全操作空間,利用其確保模型的部署表現(xiàn)可以完美無瑕。

令人驚訝的是,新的LLMs主要提高了高難度任務(wù)上的性能,而對于更簡單任務(wù)沒有明顯的改進。比如,GPT-4與前身GPT-3.5-turbo相比。

以上證明了人類難度預(yù)期與模型表現(xiàn)存在不一致的現(xiàn)象,并且此不一致性在新的模型上加劇了。

圖片

這也意味著:

目前沒有讓人類確定LLMs可以信任的安全操作條件。

在需要高可靠性以及識別安全操作空間的應(yīng)用中,這一點尤其令人擔(dān)憂。這不禁令人反思:人類正在努力創(chuàng)造的前沿機器智能,是否真的是社會大眾所期望擁有的。

圖片

其次,關(guān)于第2點論文發(fā)現(xiàn)(回避通常指模型偏離問題回答,或者直接挑明“我不知道”)

相比較早的LLMs,最新的LLMs大幅度地提高了許多錯誤或一本正經(jīng)的胡說八道的答案,而不是謹(jǐn)慎地避開超出它們能力范圍之外的任務(wù)。

這也導(dǎo)致一個諷刺的現(xiàn)象:在一些benchmarks中,新的LLMs錯誤率提升速度甚至遠(yuǎn)超于準(zhǔn)確率的提升(doge)。

圖片

一般來說,人類面對越難的任務(wù),越有可能含糊其辭。

但LLMs的實際表現(xiàn)卻截然不同,研究顯示,它們的規(guī)避行為與困難度并無明顯關(guān)聯(lián)。

這容易導(dǎo)致用戶最初過度依賴LLMs來完成他們不擅長的任務(wù),但讓他們從長遠(yuǎn)來看感到失望。

后果就是,人類還需要驗證模型輸出的準(zhǔn)確性,以及發(fā)現(xiàn)錯誤。(想用LLMs偷懶大打折扣)

圖片

最后論文發(fā)現(xiàn),即使一些可靠性指標(biāo)有所改善,模型仍然對同一問題的微小表述變化敏感。

舉個栗子,問“你能回答……嗎?”而不是“請回答以下問題……”會導(dǎo)致不同程度的準(zhǔn)確性。

分析發(fā)現(xiàn):僅僅依靠現(xiàn)存的scaling-up和shaping-up不太可能完全解決指示敏感度的問題,因為最新模型和它們的前身相比優(yōu)化并不顯著。

而且即使選擇平均表現(xiàn)上最佳的表述格式,其也可能主要對高難度任務(wù)有效,但同時對低難度任務(wù)無效(錯誤率更高)

這表明,人類仍然受制于提示工程。

圖片

更可怕的是,論文發(fā)現(xiàn),人類監(jiān)督無法緩解模型的不可靠性

論文根據(jù)人類調(diào)查來分析,人類對難度的感知是否與實際表現(xiàn)一致,以及人類是否能夠準(zhǔn)確評估模型的輸出。

結(jié)果顯示,在用戶認(rèn)為困難的操作區(qū)域中,他們經(jīng)常將錯誤的輸出視為正確;即使對于簡單的任務(wù),也不存在同時具有低模型誤差和低監(jiān)督誤差的安全操作區(qū)域。

圖片

以上不可靠性問題在多個LLMs系列中存在,包括GPT、LLaMA和BLOOM,研究列出來的有32個模型

這些模型表現(xiàn)出不同的Scaling-up(增加計算、模型大小和數(shù)據(jù))以及shaping-up(例如指令FT、RLHF)。

圖片

除了上面這些,作者們后來還發(fā)現(xiàn)一些最新、最強的模型也存在本文提到的不可靠性問題:

包括OpenAI的o1模型、Antropicic的Claude-3.5-Sonnet和Meta的LLaMA-3.1-405B

并有一篇文檔分別舉出了例子(具體可查閱原文檔)

圖片

此外,為了驗證其他模型是否存在可靠性問題,作者將論文用到的測試基準(zhǔn)ReliabilityBench也開源了。

這是一個包含五個領(lǐng)域的數(shù)據(jù)集,有簡單算術(shù)(“加法”)、詞匯重組(“字謎”)、地理知識(“位置”)、基礎(chǔ)和高級科學(xué)問題(“科學(xué)”)以及以信息為中心的轉(zhuǎn)換(“轉(zhuǎn)換”)。

圖片

作者介紹

論文一作Lexin Zhou(周樂鑫),目前剛從劍橋大學(xué)CS碩士畢業(yè)(24歲),研究興趣為大語言模型評測。

在此之前,他在瓦倫西亞理工大學(xué)獲得了數(shù)據(jù)科學(xué)學(xué)士學(xué)位,指導(dǎo)老師是Jose Hernandez-Orallo教授。

圖片

個人主頁顯示,他曾有多段工作實習(xí)經(jīng)歷。在OpenAI和Meta都參與了紅隊測試。(Red Teaming Consultancy )

圖片

關(guān)于這篇論文,他重點談到:

通用人工智能的設(shè)計和開發(fā)需要進行根本性轉(zhuǎn)變,特別是在高風(fēng)險領(lǐng)域,因為可預(yù)測的錯誤分布至關(guān)重要。在此實現(xiàn)之前,依賴人類監(jiān)督是一種危險。

評估模型時,考慮人類認(rèn)為的難度和評估模型的回避行為,可以更全面地描述模型的能力和風(fēng)險,而不僅僅關(guān)注在困難任務(wù)上的表現(xiàn)。

圖片

論文也具體提到了導(dǎo)致這些不可靠性的一些可能原因,以及解決方案:

 在Scaling-up中,近幾年的benchmarks越來越偏向于加入更多困難的例子,或者給予所謂“權(quán)威”來源更多權(quán)重,研究員也因此更傾向于優(yōu)化模型在困難任務(wù)上的表現(xiàn),導(dǎo)致在難度一致性上慢性惡化。

在shaping-up中(如RLHF),被雇傭的人傾向于懲罰那些規(guī)避任務(wù)的答案,導(dǎo)致模型更容易在面對自己無法解決的難題時“胡說八道”。

至于如何解決這些不可靠性,論文認(rèn)為,可以使用人類難度預(yù)期去更好的訓(xùn)練或微調(diào)模型,又或者是利用任務(wù)難度和模型自信度去更好的教會模型規(guī)避超出自身能力范圍的難題,等等。

對此,你有何看法?

文章:https://www.nature.com/articles/s41586-024-07930-y

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2010-12-28 19:50:21

可靠性產(chǎn)品可靠性

2025-02-28 08:00:00

大語言模型DeepSeek機器學(xué)習(xí)

2011-05-25 19:31:07

Stratus信息化

2010-12-28 20:16:24

2014-10-10 10:10:01

A10 Network

2019-08-30 12:10:05

磁盤數(shù)據(jù)可靠性RAID

2010-12-28 19:55:20

軟件架構(gòu)可靠性

2013-11-04 17:04:22

容錯可靠

2020-12-06 14:51:23

物聯(lián)網(wǎng)可靠性IOT

2024-05-09 08:04:23

RabbitMQ消息可靠性

2017-06-23 18:25:51

kafka數(shù)據(jù)可靠性

2009-04-08 10:23:00

軟交換網(wǎng)絡(luò)可靠

2024-07-25 13:56:49

2010-12-28 20:04:10

網(wǎng)絡(luò)的可靠性網(wǎng)絡(luò)解決方案可靠性

2023-06-01 14:25:17

數(shù)據(jù)中心服務(wù)器

2023-12-15 12:52:32

模型數(shù)據(jù)

2013-04-24 10:31:44

公有云云安全

2010-03-02 18:16:45

WCF可靠性傳輸

2018-05-07 10:20:38

Kafka存儲機制

2017-04-10 10:30:05

互聯(lián)網(wǎng)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 免费三级黄| 国产精品成人av | 国产在线精品一区二区三区 | 综合九九 | 国产二区av | 天堂va在线| 国产精品久久一区 | 一区二区高清 | 欧美久久一区二区三区 | 男女羞羞视频在线免费观看 | 久久久久国产 | 在线观看国产www | 亚洲国产成人av好男人在线观看 | 99re在线视频 | 国产1区2区| 成人精品视频99在线观看免费 | 国产成人福利在线观看 | 9999视频| 亚洲国产精品一区二区第一页 | 亚洲欧美中文日韩在线v日本 | 91社区视频 | 国产日韩欧美一区二区在线播放 | 亚洲午夜精品在线观看 | 国产麻豆乱码精品一区二区三区 | 日韩视频一区 | 成人av免费在线观看 | 91高清视频在线观看 | 91精品在线观看入口 | 在线观看视频一区 | 91久久婷婷 | 国内精品久久精品 | 男人的天堂中文字幕 | 一区二区激情 | 一区二区免费在线观看 | 亚洲精品一区av在线播放 | 亚洲激情在线观看 | 成人在线不卡 | 日韩在线播放一区 | 午夜在线视频一区二区三区 | 日韩一二三区视频 | 色婷婷国产精品 |