資深專家也無法準確分辨出 ChatGPT 撰寫的科學論文
1 月 14 日消息,美國科普雜志《科學美國人》(Scientific American)今天發布??文章??,表示由 ChatGPT 撰寫的科學論文具備非常高的學術性,以至于資深的科學家也無法分辨。
在 12 月下旬發表在 bioRxiv 服務器上的預印論文中寫道,人工智能 (AI) 聊天機器人已經具備撰寫令人信服的虛假研究論文,以至于科學家們在不仔細甄別的情況下也無法分辨。
英國牛津大學研究技術和監管的 Sandra Wachter 表示:“我對此非常擔心。如果連專家都無法甄別論文的真假,那么就會影響我們的研究基石”。
IT之家小課堂:聊天機器人 ChatGPT 會根據用戶提示創建逼真且聽起來很智能的文本。它是一種“大型語言模型”,一種基于神經網絡的系統,通過消化大量現有的人類生成的文本來學習執行任務。位于加利福尼亞州舊金山的軟件公司 OpenAI 于 11 月 30 日發布了該工具,并且可以免費使用。
由伊利諾伊州芝加哥市西北大學的 Catherine Gao 領導的小組使用 ChatGPT 生成人工研究論文摘要,以測試科學家是否可以發現它們。研究人員要求聊天機器人根據發表在《美國醫學會雜志》(JAMA)、《新英格蘭醫學雜志》(The New England Journal of Medicine)、《英國醫學雜志》(The BMJ)、《柳葉刀》(The Lancet )和《自然醫學》(Nature Medicine)上的選集撰寫 50 篇醫學研究摘要。
然后,他們通過剽竊檢測器和 AI 輸出檢測器將這些摘要與原始摘要進行比較,并要求一組醫學研究人員找出捏造的摘要。
ChatGPT 生成的摘要順利通過了剽竊檢查器(plagiarism checker):原創得分中位數為 100%,這表明沒有檢測到剽竊。
AI 輸出檢測器發現了 66% 的生成摘要,而人工審核僅正確識別了 68% 的生成摘要和 86% 的真實摘要。專家錯誤地將 32% 的生成摘要識別為真實摘要,將 14% 的真實摘要識別為生成的。