成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

科學美國人: 大模型永遠不會停止幻覺

發布于 2024-7-5 09:56
瀏覽
0收藏

去年夏天,一名聯邦法官對紐約市一家律師事務所處以 5,000 美元的罰款,原因是一名律師使用人工智能工具 ChatGPT 起草了一起人身傷害案件的摘要。文本中充滿了虛假信息,包括超過六個完全捏造的過去案例,旨在為人身傷害訴訟建立判例。斯坦福大學(Stanford University)和耶魯大學(Yale University)的研究人員在最近對三種流行的大語言模型(LLM)的研究預印本中發現,類似的錯誤在人工智能生成的法律輸出中非常普遍。當生成式 AI 模型產生與現實不符的響應時,有一個術語:“幻覺 hallucination”。

幻覺通常被描述為人工智能的一個技術問題,一個勤奮的開發人員最終會解決的問題。但許多機器學習專家并不認為幻覺是可以修復的,因為它源于LLMs只是在做他們被開發和訓練應該做的事情:盡可能地響應用戶提示。根據一些人工智能研究人員的說法,真正的問題存在于我們的共同想法 - 對這些模型是什么以及如何使用它們的決定。研究人員表示,為了減輕幻覺,生成式人工智能工具必須與事實核查系統配對,避免任何不受監督的聊天機器人。 

許多與人工智能幻覺有關的沖突都源于營銷和炒作。科技公司將他們的LLM描繪成數字瑞士軍刀,能夠解決無數問題或取代人類工作。但是應用在錯誤的設置中,這些工具就會失敗。聊天機器人為用戶提供了不正確且可能有害的醫療建議,媒體機構發布了人工智能生成的文章,其中包括不準確的財務指導,具有人工智能界面的搜索引擎發明了虛假引文。隨著越來越多的人和企業依賴聊天機器人來獲取事實信息,他們編造事情的傾向變得更加明顯和具有破壞性。

但今天的 LLM 從來都不是為了純粹準確而設計的。它們被創造出來是為了創造——為了生成——亞利桑那州立大學(Arizona State University)研究人工智能的計算機科學教授Subbarao Kambhampati說。“現實情況是:沒有辦法保證所生成內容的真實性,”他解釋說,并補充說,所有計算機生成的“創造力在某種程度上都是幻覺”。【譯者注:譯者一直強調GenAI的應用場景選擇的一個最重要的原則是:創意大于準確性。當前有人建議你將GenAI應用于數據分析的時候,請三思。】

在一月份發布的一項研究預印本中,新加坡國立大學的三名機器學習研究人員提出了一個證據,證明在大型語言模型中,幻覺是不可避免的。該證明應用了學習理論中的一些經典結果,例如康托爾的對角化論證(Cantor’s diagonalization argument),以證明 LLM 根本無法學習所有可計算函數。換句話說,它表明總會有超出模型能力的可解決的問題。“對于任何大語言模型來說,現實世界中都有一部分是它無法學習的,在那里它不可避免地會產生幻覺,”該研究的合著者Ziwei Xu,Sanjay Jain和Mohan Kankanhalli在給《科學美國人》的一封聯合電子郵件中寫道。

盡管這個證明看起來是準確的,Kambhampati說,但它提出的 - 某些難題總能難倒計算機的論點 - 過于寬泛,無法深入了解為什么會發生特定的虛構。而且,他繼續說,這個問題比證明所顯示的更為普遍,因為大語言模型即使面對簡單的請求也會產生幻覺。【譯者注:譯者在“??大模型的幻覺,解鈴還須系鈴人??”文中從生成的數理框架的機理出發,對幻覺的主要來源,比如跨范疇采樣與變分推理,以及如何管控幻覺做了詳細的邏輯推演。】 

科學美國人: 大模型永遠不會停止幻覺-AI.x社區


伊利諾伊大學香檳分校(University of Illinois at Urbana-Champaign)研究自然語言和語音處理的計算機科學教授迪萊克·哈卡尼-圖爾(Dilek Hakkani-Tür)說,人工智能聊天機器人經常產生幻覺的一個主要原因源于它們的基本結構。LLM 基本上是超高級的自動完成工具;他們經過訓練,可以預測序列中接下來應該出現什么,例如文本字符串。如果模型的訓練數據包含有關某個主題的大量信息,則可能會產生準確的輸出。但是 LLM 的構建是為了始終產生答案,即使是在其訓練數據中沒有出現的主題上也是如此。哈卡尼-圖爾說,這增加了出現錯誤的可能性。

添加更多基于事實的訓練數據似乎是一個顯而易見的解決方案。但是,LLM可以容納多少信息存在實際和物理限制,計算機科學家Amr Awadallah說,他是AI平臺Vectara的聯合創始人兼首席執行官,該平臺在排行榜上跟蹤LLM的幻覺率。(在跟蹤的AI模型中,最低的幻覺率約為3%至5%。為了達到語言的流暢性,這些龐大的模型用來訓練的數據比它們能存儲的數據多得多,數據壓縮是不可避免的結果。當 LLM 無法“像在培訓中一樣回憶起一切時,他們會編造東西并填補空白,”Awadallah 說。而且,他補充說,這些模型已經在我們計算能力的邊緣運行;試圖通過使 LLM 變大來避免幻覺會產生更慢的模型,這些模型更昂貴且對環境更有害。

【譯者注:舉一個真實例子,大模型幫助審閱合同的時候,找到合同中的問題,稱是根據某某法典某條某款的判斷,判斷確實是對的,但大模型無法完整復述該法典該條該款。其實這很類似人類的理解式學習】    


科學美國人: 大模型永遠不會停止幻覺-AI.x社區


幻覺的另一個原因是校準,佐治亞理工學院計算機科學教授Santosh Vempala說。校準是調整 LLM 以偏愛某些輸出而不是其他輸出的過程(以匹配訓練數據的統計數據或生成更逼真的人類短語)。【譯者注:作者后來修正注釋這是一個單獨的過程,稱為對齊】 在去年 11 月首次發布的一篇預印本論文中,Vempala 和一位合著者認為,任何經過校準的語言模型都會產生幻覺——因為準確性本身有時與自然流暢且看起來是原創的文本不一致。減少校準可以提高真實性,同時在 LLM 生成的文本中引入其他缺陷。Vempala說,未經校準的模型可能會公式化地寫作,比人更頻繁地重復單詞和短語。問題在于,用戶希望人工智能聊天機器人既真實又流暢。

Kambhampati 說,接受 LLM 可能永遠無法產生完全準確的輸出意味著重新考慮我們何時、何地以及如何部署這些生成工具。他補充說,他們是很棒的創意創造者,但他們不是獨立的問題解決者。“你可以通過把它們放到一個有驗證者的架構中來利用它們,”他解釋說,無論這意味著讓更多的人參與進來,還是使用其他自動化程序。【譯者注:重要的事情說三遍:譯者一直強調GenAI的應用場景選擇的一個最重要的原則是:創意大于準確性。而且RAG 在事實校驗中的作用是十分局限的。】    

在Vectara公司,Awadallah正在為此努力。他說,他的團隊的排行榜項目是幻覺檢測器的早期概念驗證,而檢測幻覺是能夠修復幻覺的第一步。未來的檢測器可能會與自動化 AI 編輯器配對,該編輯器可以在錯誤到達最終用戶之前糾正錯誤。他的公司還在開發一個名為AskNews的混合聊天機器人和新聞數據庫,該數據庫將LLM與檢索引擎相結合,該引擎從最近發表的文章中挑選最相關的事實來回答用戶的問題。阿瓦達拉說,AskNews提供的時事描述比LLM本身所能產生的要準確得多,因為聊天機器人的響應僅基于數據庫搜索工具挖掘的來源。

         

科學美國人: 大模型永遠不會停止幻覺-AI.x社區


Hakkani-Tür也在研究基于事實的系統,將專門的語言模型與相對可靠的信息源(如公司文件、經過驗證的產品評論、醫學文獻或維基百科帖子)配對,以提高準確性。她希望,一旦所有的問題都得到解決,這些接地氣的網絡有朝一日可以成為實現健康獲取和教育公平等方面的有用工具。“我確實看到了語言模型的力量,它是讓我們的生活更美好、更有成效、更公平的工具,”她說。

在未來,專業系統會驗證LLM輸出,為特定環境設計的人工智能工具將部分取代今天的通用模型。人工智能文本生成器的每個應用程序(無論是客戶服務聊天機器人、新聞摘要服務還是法律顧問)都將成為定制架構的一部分,從而實現其實用性。同時,不那么接地氣的通才聊天機器人將能夠回答你提出的任何問題,但不能保證真實性。他們將繼續成為強大的創意伙伴或靈感和娛樂的來源——但不是神諭或百科全書——完全遵照其設計目標。

【譯者注:譯者在“??大模型的幻覺,解鈴還須系鈴人??”文中運用自己總結的大模型數學物理原理的思維框架,從原理層面分析了大模型幻覺產生的機理和控制方法,與本文中眾多學者的學術分析吻合,印證了思維框架的重要價值。】 

作者勞倫·萊弗(LAUREN LEFFER)是《科學美國人》的特約撰稿人和前技術報道研究員。她報道了許多主題,包括人工智能、氣候和奇怪的生物學,因為她對錯誤感到好奇。 

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 蜜臀网站 | 免费激情 | 98久久 | 伊人网91 | 亚洲精品久久嫩草网站秘色 | 精品久久久久久18免费网站 | 久久久久国产精品午夜一区 | 国产精品网址 | 国产农村妇女精品一区 | 亚洲国产精品99久久久久久久久 | 91视频国产一区 | 日朝毛片 | 一级片在线播放 | 中文字幕一区二区三区乱码在线 | 国产成人精品网站 | 亚洲一区三区在线观看 | 搞黄视频免费看 | 久久久久国产精品午夜一区 | 夜夜久久 | 欧美在线看片 | 欧美在线国产精品 | 欧美激情精品久久久久久 | 国产 日韩 欧美 在线 | 夜夜操天天操 | 国内精品久久精品 | 日韩资源 | 嫩草视频入口 | gogo肉体亚洲高清在线视 | 欧美a在线 | 日韩不卡在线 | 亚洲精品免费视频 | 精品中文字幕久久 | 日韩一区二区三区在线 | 久草99| 亭亭五月激情 | 久久草在线视频 | 亚洲视频免费在线观看 | 日韩视频中文字幕 | 精品国产一区二区在线 | 日本精品裸体写真集在线观看 | 午夜婷婷激情 |