斯坦福研究:ChatGPT性能,曾出現下降趨勢
斯坦福大學和加州伯克利大學的研究人員在“哈佛數據科學評論”上,發布了一篇名為《ChatGPT行為隨時間變化》的論文。
研究人員通過GPT-3.5、GPT-4(2023年3月和6月兩個版本)模型在數學問題、代碼生成、多跳知識密集問答、美國醫學執照考試、多跳知識密集型問題回答等7項任務進行了深度研究,以查看ChatGPT隨著時間推移其性能的變化趨勢。
結果顯示, GPT-3.5 GPT-4的性能和行為在3個月內出現了明顯波動。GPT-4在3月份時能夠以84%的準確率正確區分質數與合數,但到了6月份,這一能力大幅下降至51%,部分原因是其遵循“思維鏈”提示的能力減弱。
意外的是,同一時期內GPT-3.5模型在此類任務上的表現卻有所提升。
此外,GPT-4在6月份對敏感問題和意見調查的回應意愿降低,而在解答需要多步推理的問題上表現更好,而GPT-3.5則在這類任務上表現下滑。同時,兩個模型在代碼生成方面的格式錯誤均有所增加,且GPT-4遵從用戶指令的能力呈現下降趨勢。
評估方法和流程
研究人員評估GPT-3.5、GPT-4的性能、行為,主要基于多樣性和代表性兩大原則。并在數學問題、敏感/危險問題、意見調查、多跳知識密集型問題、代碼生成、美國醫學執照考試和視覺推理7大領域任務進行了綜合測試。
為了深入理解這些行為變化,研究團隊專門設計了一套新的基準測試,專注于任務無關的指令遵循度。這套測試包含了答案提取、停止道歉、避免特定詞匯和內容過濾4種常見指令類型。
通過這些指令,可以在特定任務的技能和知識,純粹評估大模型的指令遵循能力。GPT-4在3月時能較好地遵循大多數個體指令,但在6月則開始忽視這些指令,例如,回答提取指令的遵循率從99.5%驟降至接近零,內容過濾指令的忠實度也從74.0%下降到19.0%。
此外,為了準確捕捉模型在各任務上的表現,研究團隊為每個任務設定了主要的性能指標和通用的補充指標。
例如,數學問題和USMLE,使用準確性作為主要指標,即模型給出正確答案的比例;代碼生成,以輸出代碼的可執行比例為主,考量代碼生成后能否不經修改直接運行并通過單元測試等。
ChatGPT的4大指令評估表現
答案提取指令是要求模型在給定的文本或問題中,準確地找到并明確標示出答案。這類指令通常用于快速獲取簡短、明確的信息回答。
例如,如果問題是“地球是平的嗎?”模型應輸出“否”。研究發現,GPT-4在3月份時,對這種類型的指令遵循度極高,幾乎99.5%的查詢都能得到正確格式的回答。
然而,到了6月份,這個比例驟降,幾乎不再遵循這樣的指令,顯示出模型在處理明確指令格式上的退化。這種變化可能反映了模型內部更新或訓練策略的調整,導致其在理解和執行具體格式要求時的不一致。
停止道歉指令測試了模型在用戶明確要求下,能否避免使用道歉或自我指認為AI模型的語句。這旨在探究模型對用戶個性化需求的尊重程度。
3月份的GPT-4在多數情況下能夠遵循此類指示,避免提及“抱歉”或承認自己是AI,但在6月份,它頻繁違背這一指令,即使用戶明確指示,仍會生成包含“抱歉”或自我標識為AI的回應。這表明模型在處理用戶請求的個性化和敏感性方面出現了退步。
避免特定詞匯的指令是要求模型在生成的文本中,排除特定詞匯或短語。這項測試檢驗了模型的靈活性和對細節的把握,特別是在遵循特定約束方面。GPT-4由3月份的較高水平下降至6月份的低水平,表明其對復雜指令的處理能力有所減退。
內容過濾指令要求模型在生成內容時排除特定主題或敏感信息。這對于確保模型生成內容的適宜性和安全性至關重要,尤其是在處理兒童內容、政治話題或醫療信息時。在3月份,GPT-4在很大程度上能夠遵循這些過濾要求,避免提及不適當的內容。
但在6月份,它的過濾能力明顯下降,僅約19%的敏感問題處理得當。這種退步不僅關系到模型的實用性,還凸顯了模型維護和監管中的挑戰,特別是在不斷變化的網絡環境和用戶需求背景下。
研究人員表示,由于GPT-3.5、GPT-4都是閉源模型,OpenAI不會公開其詳細的訓練數據和流程,所以,每次發布大版本更新時,用戶根本不知道哪些功能發生了較大的變化。
而本研究可以幫助開發人員和用戶了解ChatGPT的性能、行為動態,這對于確保模型的安全性、內容真實性至關重要。