成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT也會“學習退步”?

人工智能
通過不斷學習變得更好是現代人工智能的一大賣點。但上周發布的新研究表明,隨著時間的推移,ChatGPT在某些任務上可能會變得越來越糟糕。

通過不斷學習變得更好是現代人工智能的一大賣點。但上周發布的新研究表明,隨著時間的推移,ChatGPT在某些任務上可能會變得越來越糟糕。

根據斯坦福大學和加州大學伯克利分校研究人員的論文初稿,在GPT-3.5和GPT-4的結果中檢測到了相當大的漂移偏差,這兩個OpenAI大型語言模型(LLM)是近期爆火的ChatGPT的基礎。

三位研究人員(其中包括斯坦福大學助理教授Matei Zaharia,他是Databricks的聯合創始人和Apache Spark的創始人,以及加州大學伯克利分校的Lingjiao Chen和James Zou)測試了兩種不同版本的LLM:2023年3月和2023年6月的GPT-3.5及GPT-4。

研究人員在人工智能任務的試驗臺上運行了這四個模型,包括數學問題、回答敏感/危險問題、回答意見調查、回答多跳知識密集型問題、生成代碼、美國醫學執照考試和視覺推理。

結果顯示LLM給出的答案有相當大的可變性。特別是,研究人員發現,GPT-4在6月份的數學問題回答中的表現比3月份的更差。使用思考鏈(COT)提示正確識別素數的準確率顯示,GPT-4的準確率從3月份的84.0%下降到6月份的51.1%。與此同時,GPT-3.5在同一測試中的準確率從3月份的49.6%上升到6月份的76.2%。

作者思考了為什么GPT-4的準確性下降了這么多,觀察到處理COT的行為是不同的。按照研究人員在COT提示下的要求,3月份的版本將任務分解為多個步驟。然而,6月份版本的GPT-4沒有給出任何中間步驟或解釋,只是將答案(錯誤地)生成為“否”。

第二道數學題也發現了類似的漂移水平:發現“快樂”數字(研究人員寫道,“如果用數字的平方和代替整數最終產生1,則稱為‘快樂’數字)。研究人員寫道:他們“在這項任務中觀察到了顯著的性能漂移”,GPT-4的準確率從3月份的83.6%下降到了35.2%,六月GPT-3.5的準確率從30.6%上升到48.2%。再次觀察到,GPT-4沒有遵循研究人員發布的COT命令。

當研究人員向LLM提出敏感或危險的問題時,也觀察到了變化。GPT-4回答問題的意愿隨著時間的推移而下降,從3月份的21.0%上升到6月份的5.0%。相反,GPT-3.5變得更健談,從2.0%上升到5.0%。研究人員得出結論,OpenAI在GPT-4中采用了“更強的安全層”,而GPT-3.5則變得“不那么保守”。

意見調查測試顯示,GPT-4提交意見的可能性明顯降低,從3月份的97.6%的回復率降至3月份的22.1%,而篇幅冗長(或字數)增加了近30個百分點。GPT-3.5的響應率和冗長程度幾乎沒有變化。

當涉及到回答需要“多跳推理”的復雜問題時,發現了性能上的顯著差異。研究人員將LangChain的即時工程能力與HotpotQA Agent(用于回答多跳問題)相結合,并指出GPT-4在生成完全匹配的答案方面的準確率從1.2%提高到37.8%。然而,GPT-3.5的“精確匹配”成功率從22.8%下降到14.0%。

在代碼生成方面,研究人員觀察到,兩個LLM的輸出在可執行性方面都有所下降。GPT-4的輸出在3月份有50%以上是直接可執行的,而在6月份只有10%,GPT-3.5也有類似的下降。研究人員發現,GPT開始在Python輸出中添加非代碼文本,如額外的標點。他們推斷,額外的非代碼文本是為了使代碼更容易在瀏覽器中呈現,但它使代碼不可執行。

GPT-4在美國醫學執照考試中的表現略有下降,從86.6%降至82.4%,而GPT-3.5下降了不到1個百分點,降至54.7%。然而,GPT-4出錯的答案隨著時間的推移而變化,這表明隨著3月份的一些錯誤答案得到糾正,但LLM也有從正確答案變為錯誤答案情況出現。

視覺推理測試發現,這兩個模型都有小的改進。然而,總體準確率(GPT-4為27.4%,GPT-3.5為12.2%)并不高。研究人員再次觀察到,模型對他們之前正確回答的問題產生了錯誤的答案。

研究人員寫道,測試表明,GPT-3.5和GPT-4的性能和行為在短時間內發生了顯著變化。

他們寫道:“這突出了持續評估和評估應用程序中LLM漂移行為的必要性,尤其是ChatGPT等LLM是如何隨時間更新的,這一點并不透明。”“我們的研究還強調了統一提高LLM多方面能力的挑戰。提高模型在某些任務中的性能,例如對額外數據進行微調,可能會對在其他任務中的行為產生意想不到的副作用。與此一致的是,GPT-3.5和GPT-4在某些任務上都變得更差,但在其他方面都有所改善。”

責任編輯:華軒 來源: Ai時代前沿
相關推薦

2023-02-27 14:55:54

技術研究

2022-12-08 08:16:59

ChatGPT開源商業化

2023-04-29 00:00:00

Chatgpt人工智能系統

2023-03-27 17:32:56

ChatGPT人工智能

2023-03-01 09:39:05

2022-08-17 08:17:01

SPI機制接口

2024-05-10 08:44:25

ChatGPT模型GPT

2023-05-15 12:11:24

2016-07-27 17:16:34

大數據媒體

2024-04-02 11:13:10

2023-06-26 17:45:14

編程語言ChatGPTJavaScript

2021-12-28 08:17:41

循環 forgo

2018-08-03 13:06:16

騰訊Facebook社交

2020-10-23 10:46:03

緩存雪崩擊穿

2024-06-07 09:19:00

AIjson字符串

2012-12-13 09:58:24

隱私泄露禁止追蹤

2010-08-26 16:40:16

2021-10-28 15:41:07

計算機AI 技術

2024-04-02 08:45:08

ChatGPTAI會議人工智能

2023-03-11 00:16:08

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩精品一区二区天天拍 | 毛片网在线观看 | 亚洲精品成人 | 日韩色图在线观看 | 一级片免费在线观看 | 精品国产欧美 | 91porn国产成人福利 | 伊人网伊人网 | 一本久久a久久精品亚洲 | 久久久久久久久久久久亚洲 | 国产精品九九 | 麻豆久久久久久久 | 国产欧美一区二区精品忘忧草 | 久久亚洲春色中文字幕久久久 | 女女百合av大片一区二区三区九县 | 日韩影院在线观看 | 国产精品久久久久一区二区 | a级大片| 国产亚洲一区二区三区在线 | 国产视频久 | 一区二区三区福利视频 | 91精品国产乱码久久久久久 | 综合色在线 | 国产精品一区在线 | 日本在线免费观看 | 成人99 | 精品欧美一区二区三区久久久小说 | 黄网免费 | 8x国产精品视频一区二区 | 成人一区二区三区在线观看 | 成人永久免费视频 | 日韩视频一区二区 | 久久久综合色 | 国产做a爱免费视频 | 国产一区二区三区精品久久久 | 成人性生交大片 | 欧美极品视频在线观看 | 中文欧美日韩 | 精品一区二区三区av | 18性欧美| 午夜视频免费在线观看 |