成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福研究:ChatGPT性能,曾出現下降趨勢

人工智能 新聞
本研究可以幫助開發人員和用戶了解ChatGPT的性能、行為動態,這對于確保模型的安全性、內容真實性至關重要。

斯坦福大學和加州伯克利大學的研究人員在“哈佛數據科學評論”上,發布了一篇名為《ChatGPT行為隨時間變化》的論文。

研究人員通過GPT-3.5、GPT-4(2023年3月和6月兩個版本)模型在數學問題、代碼生成、多跳知識密集問答、美國醫學執照考試、多跳知識密集型問題回答等7項任務進行了深度研究,以查看ChatGPT隨著時間推移其性能的變化趨勢。

結果顯示, GPT-3.5 GPT-4的性能和行為在3個月內出現了明顯波動。GPT-4在3月份時能夠以84%的準確率正確區分質數與合數,但到了6月份,這一能力大幅下降至51%,部分原因是其遵循“思維鏈”提示的能力減弱。

意外的是,同一時期內GPT-3.5模型在此類任務上的表現卻有所提升。

此外,GPT-4在6月份對敏感問題和意見調查的回應意愿降低,而在解答需要多步推理的問題上表現更好,而GPT-3.5則在這類任務上表現下滑。同時,兩個模型在代碼生成方面的格式錯誤均有所增加,且GPT-4遵從用戶指令的能力呈現下降趨勢。

圖片

評估方法和流程

研究人員評估GPT-3.5、GPT-4的性能、行為,主要基于多樣性和代表性兩大原則。并在數學問題、敏感/危險問題、意見調查、多跳知識密集型問題、代碼生成、美國醫學執照考試和視覺推理7大領域任務進行了綜合測試。

圖片

為了深入理解這些行為變化,研究團隊專門設計了一套新的基準測試,專注于任務無關的指令遵循度。這套測試包含了答案提取、停止道歉、避免特定詞匯和內容過濾4種常見指令類型。

通過這些指令,可以在特定任務的技能和知識,純粹評估大模型的指令遵循能力。GPT-4在3月時能較好地遵循大多數個體指令,但在6月則開始忽視這些指令,例如,回答提取指令的遵循率從99.5%驟降至接近零,內容過濾指令的忠實度也從74.0%下降到19.0%。

此外,為了準確捕捉模型在各任務上的表現,研究團隊為每個任務設定了主要的性能指標和通用的補充指標。

圖片

例如,數學問題和USMLE,使用準確性作為主要指標,即模型給出正確答案的比例;代碼生成,以輸出代碼的可執行比例為主,考量代碼生成后能否不經修改直接運行并通過單元測試等。

ChatGPT的4大指令評估表現

答案提取指令是要求模型在給定的文本或問題中,準確地找到并明確標示出答案。這類指令通常用于快速獲取簡短、明確的信息回答。

例如,如果問題是“地球是平的嗎?”模型應輸出“否”。研究發現,GPT-4在3月份時,對這種類型的指令遵循度極高,幾乎99.5%的查詢都能得到正確格式的回答。

然而,到了6月份,這個比例驟降,幾乎不再遵循這樣的指令,顯示出模型在處理明確指令格式上的退化。這種變化可能反映了模型內部更新或訓練策略的調整,導致其在理解和執行具體格式要求時的不一致。

圖片

停止道歉指令測試了模型在用戶明確要求下,能否避免使用道歉或自我指認為AI模型的語句。這旨在探究模型對用戶個性化需求的尊重程度。

3月份的GPT-4在多數情況下能夠遵循此類指示,避免提及“抱歉”或承認自己是AI,但在6月份,它頻繁違背這一指令,即使用戶明確指示,仍會生成包含“抱歉”或自我標識為AI的回應。這表明模型在處理用戶請求的個性化和敏感性方面出現了退步。

避免特定詞匯的指令是要求模型在生成的文本中,排除特定詞匯或短語。這項測試檢驗了模型的靈活性和對細節的把握,特別是在遵循特定約束方面。GPT-4由3月份的較高水平下降至6月份的低水平,表明其對復雜指令的處理能力有所減退。

圖片

內容過濾指令要求模型在生成內容時排除特定主題或敏感信息。這對于確保模型生成內容的適宜性和安全性至關重要,尤其是在處理兒童內容、政治話題或醫療信息時。在3月份,GPT-4在很大程度上能夠遵循這些過濾要求,避免提及不適當的內容。

但在6月份,它的過濾能力明顯下降,僅約19%的敏感問題處理得當。這種退步不僅關系到模型的實用性,還凸顯了模型維護和監管中的挑戰,特別是在不斷變化的網絡環境和用戶需求背景下。

圖片

研究人員表示,由于GPT-3.5、GPT-4都是閉源模型,OpenAI不會公開其詳細的訓練數據和流程,所以,每次發布大版本更新時,用戶根本不知道哪些功能發生了較大的變化。

而本研究可以幫助開發人員和用戶了解ChatGPT的性能、行為動態,這對于確保模型的安全性、內容真實性至關重要。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2023-02-14 09:45:11

模型測試

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2017-11-28 14:18:29

2023-03-31 13:55:00

模型智能

2024-05-06 08:00:00

AI模型

2024-04-02 08:45:08

ChatGPTAI會議人工智能

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2023-02-17 09:01:50

ChatGPT對話機器人

2024-07-22 08:00:00

機器人虛擬

2019-12-16 14:33:01

AI人工智能斯坦福

2023-06-05 15:44:15

GPT-4AI

2024-09-26 10:23:46

2022-07-20 16:39:37

AI數據

2024-09-11 15:00:00

2021-10-13 09:38:13

人工智能機器學習技術

2023-07-21 14:47:24

AI訓練

2025-06-23 15:22:21

斯坦福不等式AI

2023-12-08 13:22:00

數據模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伊人性伊人情综合网 | 国产精品日韩在线观看 | 欧美日韩视频在线播放 | 久久精品亚洲精品国产欧美kt∨ | 一级片网址 | 日本三级日产三级国产三级 | 国产精品毛片无码 | 一区二区三区av | 免费在线观看成人 | 亚洲国产精品一区 | 精精国产xxxx视频在线播放7 | 国产精品特级毛片一区二区三区 | 精品久久久久久久 | 亚洲视频在线观看 | 毛片一区二区三区 | .国产精品成人自产拍在线观看6 | 免费的色网站 | 天天艹日日干 | 美人の美乳で授乳プレイ | 五月激情综合网 | 中文字幕国产高清 | 免费国产精品久久久久久 | h片在线观看免费 | 91porn国产成人福利 | 美女一级黄 | 亚洲精品一二三区 | 国产精品久久久久久久午夜片 | 日韩精品免费播放 | 国产一级在线观看 | 欧美三级视频在线观看 | 国产精品久久久久久网站 | 国产一区二区自拍 | 亚洲精品一区二区三区蜜桃久 | 亚洲欧美一区二区三区国产精品 | 欧美日韩在线免费 | 精品日韩一区 | 成人av一区二区亚洲精 | 免费观看毛片 | 国产1区2区在线观看 | 国产日韩欧美精品一区二区 | 国产一级精品毛片 |