成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

分析過688篇大模型論文,這篇論文綜述了LLM的當前挑戰和應用

人工智能 新聞
LLM 研究大熱的現狀也在這篇綜述論文的參考文獻中得到了體現 —— 總共 22 頁參考文獻,引用了 688 篇論文!

從毫無存在感到無人不談,大型語言模型(LLM)的江湖地位在這幾年發生了巨變。這個領域的發展令人目不暇接,但也正因如此,人們難以了解還有什么難題有待解決以及哪些領域已有成熟應用。

為了幫助機器學習研究者更快理解 LLM 領域的當前現狀并提升他們的生產力,來自倫敦大學學院等多家機構的研究團隊不畏繁瑣,系統性地總結了 LLM 領域的艱難挑戰和成功應用。

LLM 研究大熱的現狀也在這篇綜述論文的參考文獻中得到了體現 —— 總共 22 頁參考文獻,引用了 688 篇論文!

機器之心對這篇綜述論文的大致框架進行了整理,以便讀者能快速了解 LLM 的挑戰和應用,更詳細的論述和具體文獻請參閱原論文。

圖片

論文:https://arxiv.org/abs/2307.10169

整體而言,這篇綜述論文聚焦于兩大主題:(1) 挑戰:哪些問題仍未解決?(2) 應用:LLM 當前的應用以及這些應用面臨哪些挑戰?對于主題 (1),研究者將 LLM 面臨的挑戰分成了三個大類:設計、行為和科學。對于主題 (2),研究者探索了聊天機器人、計算生物學、計算生物學、計算機編程、創意工作、知識工作、法律、醫學、推理、機器人和社會科學等領域。

圖 1:LLM 挑戰概況。LLM 的設計與部署前做出的決策有關。LLM 行為方面的挑戰發生在部署階段。科學方面的挑戰會阻礙學術進步。

研究者聲明,這篇論文梳理的內容帶有個人傾向性,并且假定讀者已經熟悉 LLM 的工作方式。此外,他們更關注基于文本數據訓練的模型。他們的綜述論文也專注于技術方面,不會討論 LLM 在政治、哲學或道德方面的議題。

挑戰

難以理解的數據集

對于 LLM 而言,其預訓練數據集的規模非常大,任何個人都無法徹底閱讀其中的文檔或評估這些文檔的質量。這方面涉及的問題包括:

  • 有許多非常相近幾乎算是重復的數據;
  • 基準數據遭受污染;
  • 某些信息可用于識別個人的身份;
  • 預訓練的數據域混在一起;
  • 微調任務混在一起的情況難以處理。

圖片

表 1:所選預訓練數據集概況

這些年來,預訓練數據集變得更加難以理解了:它們的規模和多樣性都在迅速增長,并且不是所有數據集都是公開可用的。

依賴 token 化器

token 化器帶來了一些挑戰,比如計算開銷、語言依賴性、對新詞的處理、固定詞匯量、信息丟失和人類可解釋性低。

圖 2:依賴 token 化器的典型缺點。(1) token 化器的訓練步驟涉及到復雜繁瑣的計算,比如多次遍歷整個預訓練數據集,并且還會導致對預訓練數據集的依賴,這在多語言環境中是個尤其麻煩的問題。(2) LLM 的嵌入層 E 和輸出層 W 與詞匯量有關,比如在 T5 模型中詞匯占到了模型參數數量的 66% 左右。

預訓練成本高

通過增加計算預算可以提升模型的性能表現,但如果模型或數據集大小固定,則增長比率會降低,呈現收益遞減的冪律趨勢。

圖 3:掩碼策略。每一行表示一個特定輸出 y_i(行)可以考慮哪些輸入 x_i(列)(紅色表示單向,藍色表示雙向)。

圖 4:根據預訓練目標進行自監督式的數據構建,來自 Tay et al.

微調開銷

需要大量內存:對整個 LLM 進行微調時需要預訓練時一樣大的內存,但很多從業者無法辦到。

存儲和加載微調 LLM 的開銷:當通過全模型微調讓 LLM 適應當前任務時,必須存儲模型的一個副本(這需要數據存儲空間),用于任務時還需要進行加載(需要為此分配內存)。

圖片

圖 5:針對下游具體任務對 LLM 進行微調。(a) 展示了簡單普通的微調,這需要更新整個模型,從而為每個任務生成一個新模型。(b) 展示了 PEFT 方法,其為每個任務學習一個模型參數子集,然后配合固定的基礎 LLM 使用。針對不同任務執行推理時,可以復用同一個基礎模型。

全矩陣乘法:若要對 LLM 實現參數高效的微調,就需要在整個網絡中執行完整的前向 / 后向通過。

推理延遲高

LLM 的推理延遲依然很高,原因包括并行性低和內存足跡大。

上下文長度有限

上下文長度有限使得 LLM 難以很好地處理長輸入,讓 LLM 不能很好地助力小說或教科書寫作或總結等應用。

prompt 不穩定

prompt 句法的變化導致的結果變化對人類來說并不直觀,有時候輸入一點小變化就會導致輸出大變樣。

圖 6:所選的 prompt 設計方法概況,分為單輪和多輪 prompt 設計。

幻覺問題

幻覺問題是指生成的文本雖然流暢又自然,但卻不忠實于內容來源(內在問題)和 / 或不確定(外在問題)。

圖片

圖 7:GPT-4 的幻覺問題示例,訪問日期:02/06/2023。

圖片

圖 8:用戶與 LLM 互動時的 a) 內在和 b) 外在幻覺示例。示例 a) 中,LLM 給出的答案與給定上下文相矛盾,而在 b) 中,上下文沒有提供足夠信息,無法知道生成的答案是否相矛盾。

圖片

圖 9:檢索增強型 GPT-4 示例,這是幻覺問題的一種潛在解決方法,訪問日期:02/06/2023。

行為不對齊

LLM 常會生成與人類價值或意圖不對齊的輸出,這可能導致意想不到的負面后果。

圖 10:對齊。這里將對齊方面的現有研究工作分為兩類:檢測未對齊的行為和實現模型對齊的方法。

過時的知識

LLM 在預訓練期間學到的事實信息可能不準確或隨著時間的推移而變得過時。但是,使用更新的預訓練數據重新訓練模型的成本不低,而試圖在微調階段忘記過時事實并學習新知識的難度也不小。

圖片

圖 11:知識過時問題的解決方法有:S.1) 通過對基礎檢索索引使用熱交換,使其獲得最新知識,從而增強檢索能力;S.2) 通過應用模型編輯技術。

評估方法不穩定

對基礎 prompt 或評估協議進行少量修改就可能導致結果出現巨大變化。

基于靜態的、人工編寫的 Ground Truth 來執行評估

隨著時間的推移,靜態基準的實用性越來越低,因為模型的能力在變化,而更新這些基準需要人類來編寫 Ground Truth。

難以分辨生成的文本和人類編寫的文本

隨著 LLM 的發展,人們越來越難以區分文本是來自 LLM 還是人類。

而就算文本已經被發現是 LLM 生成的,還能通過所謂的轉述攻打(Paraphrasing Attacks)繞開,即用另一個 LLM 重寫生成的文本,使結果保留大致一樣的意思,但改變詞或句子架構。

無法通過模型或數據擴展解決的任務

某些任務似乎無法通過進一步擴展數據或模型來解決,比如一些組合任務(Compositional tasks)。

缺乏實驗設計

表 2 列出了涉及這方面的一些學術論文。許多研究工作都沒有做控制變量實驗,如果模型的設計空間很大,那么這個問題就顯得尤為嚴重。研究者認為這會阻礙對 LLM 的科學理解和技術進步。

表 2:所選 LLM 概況。N/A 表示細節缺失。對于研究了多種模型大小的論文,這里僅給出了最大的模型。對于 Tokenizer 項為 SP 的論文,研究者表示無法從相應論文中得知使用的是 BPE 還是 Unigram token 化方法。

對照實驗:介紹新 LLM 的論文通常缺乏對照實驗,這可能是由于訓練足夠多模型的成本過高。

(設計)維度詛咒:通常而言,LLM 實驗的設計空間的維度很高。

難以復現

不可重復的訓練流程:一般來說,現在常用的訓練策略是并行化的,即會將訓練過程分散到許多加速器上,而這個過程是非確定性的,這會使得我們難以復現 LLM 的訓練過程。

不可重現的 API:以推理 API 的形式提供服務的模型通常是不可重現的。

應用

下面將聚焦于 LLM 的應用領域,其中重點關注各領域常見的應用架構。

此外還會強調每個應用領域所面臨的關鍵局限。

圖 12:LLM 應用概況。不同顏色表示不同的模型適應程度,包括預訓練、微調、提示策略、評估。

聊天機器人

通用型聊天機器人(對話智能體)包含多種任務,如信息檢索、多輪交互和文本生成(包括代碼)。

保持連貫性:多輪交互使聊天機器人很容易「忘記」對話中更早的部分或重復自己說過的話。

推理延遲高:推理延遲高的話,用戶體驗會大打折扣,尤其是要和聊天機器人進行多輪對話時。

計算生物學

計算生物學關注的是表示相似序列建模和預測挑戰的非文本數據。

難以遷移到下游任務:蛋白質語言模型的最終目標是將它們部署到藥物設計等現實項目中。評估通常針對較小和 / 或專門的數據集,而不考慮模型如何有助于生體外或生體內的蛋白質設計。

上下文窗口有限:最大的基因組的 DNA 序列遠遠長于現有基因組 LLM 的上下文窗口,這會讓研究者難以使用這些 LLM 建模某些基因組類型。

計算機編程

LLM 最先進和廣泛采用的一大應用是用各種編程語言生成和補完計算機程序。

長程依賴:由于上下文長度有限,LLM 通常無法考慮跨代碼庫的長程依賴關系。

圖 13:API 定義框架。這張示意圖展示了一個 API 定義框架:為了解決特定任務,可以在 prompt 中提供一個通用的 API 定義,從而讓 LLM 可以使用外部代碼或工具。這種方法的擴展包括要求 LLM 實現 API 定義中的功能(紅色),以及提示 LLM 自己去調試任何不執行的 API 代碼(綠色)。

創意工作

在創意工作方面,LLM 主要被用于生成故事和劇本。

上下文窗口有限:由于上下文窗口有限,當前的 LLM 無法完整地生成長作品,這會限制它們在長作品方面的應用,也催生了對模塊化 prompt 設計的需求。

圖片

圖 14:模塊化 prompt 設計。通過一系列分立的 prompt 和處理步驟,LLM 可以執行無法放入單個上下文窗口中的任務以及解決無法通過單一 prompt 步驟解決的任務。

知識工作

隨著 LLM 在特定領域的知識任務(比如法律或醫學)上的能力逐漸得到證明,人們也越來越有興趣將 LLM 用于更廣泛的知識工作。這些潛在應用的范圍非常廣泛,據 Eloundou et al. 估計,美國 80% 的勞動力所從事的工作中至少有 10% 的任務會受到 LLM 的影響。

數值推理:LLM 通常在涉及數量的任務上表現更差,這可能會限制它們在金融服務或會計等知識工作領域的應用。

法律

LLM 在法律領域的應用與在醫學領域的有許多相似之處,包括法律問答和法律信息提取。但也有人提出過其它特定領域的應用,比如案件結果預測、法律研究和法律文本生成。

信息過時問題:由于法律會不斷更新,新的判例也會不斷出現,因此訓練 / 檢索數據經常會遇到過時的問題。

醫學

醫學領域已經提出了許多 LLM 應用,包括醫學問答、臨床信息提取、索引、分診、和健康記錄管理。

幻覺和偏見:醫療領域的安全性是至關重要的,這意味著出現幻覺的可能性會極大地限制當前的用例。此外,為了降低 LLM 延續現有臨床數據集中的偏見的風險,還需要進一步的研究工作。

推理

數學和算法任務往往需要不同于傳統 NLP 任務的能力集合,比如理解數學運算、復雜的多步推理和更長期的規劃。因此,現在人們也在努力研究如何將 LLM 用于這些任務以及如何提升 LLM 的能力。

性能表現不及人類:在推理基準任務上,現有的 LLM 難以比肩人類。

機器人和具身智能體

LLM 也已經開始被集成到機器人應用中,以為機器人提供高層規劃和語境知識能力。

單一模態問題:盡管 LLM 可以幫助機器人或智能體理解指令和增添高層規劃能力,但它們卻無法直接學習圖像、音頻或其它感官模態,這就限制了它們的應用。

社會科學和心理學

快速發展的 LLM 也在心理學和行為科學領域找到了潛在的應用場景。研究者分析了已有的文獻,找到了 LLM 在心理學和行為科學領域得到使用的三個主要方向:使用 LLM 來模擬人類行為實驗、分析 LLM 的人格特質、使用 LLM 作為建模社會關系的人工智能體。如圖 15 所示。

圖片

圖 15:LLM 在社會科學和心理學領域的用例。

社會偏見:由于 LLM 的訓練數據中存在不平衡的觀點和意見,因此會使其傾向有偏見的人類行為。

生成合成數據

LLM 具備在上下文中學習的能力,因此可以通過 prompt 讓其生成合成數據集,用于訓練更小型的特定領域的模型。

帶幻覺的分布:由于我們現在還無法驗證生成的合成數據是否能否代表對應的真實世界數據的分布,因此目前還難以使用 LLM 生成完整的合成數據集。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-06 15:40:00

模型算法

2023-07-17 10:45:04

模型應用

2022-09-13 14:54:08

模型AI

2023-08-01 14:29:00

研究論文

2023-07-04 12:57:57

多模態語言模型

2017-11-20 13:15:40

神經網絡機器學習深度學習

2024-04-11 12:30:52

模型數據

2023-10-18 13:32:00

AI數據

2024-06-24 09:25:57

2024-11-29 18:37:07

2025-05-27 15:21:06

LLM模型AI

2024-01-08 09:27:28

自動駕駛模型

2017-10-23 06:36:27

生成對抗網絡架構訓練技巧

2023-12-22 13:46:41

數據訓練

2024-01-06 17:31:56

模型技術

2025-06-12 01:00:00

2020-01-14 07:20:51

物聯網IOT物聯網應用

2024-04-25 14:40:47

2024-07-31 08:14:17

2024-10-21 09:46:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲综合首页 | 欧美aaaa视频 | 免费在线观看av网站 | 欧美性生交大片免费 | 久久a久久| 成人亚洲精品久久久久软件 | 日韩精品在线看 | 亚洲区视频 | 久久国 | 久国产精品 | 午夜男人天堂 | 爱综合| 欧美黄色性生活视频 | 国产乱码精品1区2区3区 | 日韩视频中文字幕 | 国产成人影院 | jlzzjlzz欧美大全 | 国产乱码精品一区二三赶尸艳谈 | 蜜桃臀av一区二区三区 | 久久成人精品一区二区三区 | 亚洲精品在线看 | 日本三级全黄三级三级三级口周 | 精品永久| 久久国内精品 | 久久精品国产一区二区电影 | 国产精品日本一区二区在线播放 | 中文字幕av中文字幕 | 国产欧美精品一区二区色综合朱莉 | 欧美一区二区三区在线 | 欧美精品一区二区三区在线四季 | 日本aa毛片a级毛片免费观看 | 午夜影院在线观看 | 久久久久成人精品 | 欧美一级二级三级视频 | 成年人网站国产 | 日韩欧美中文字幕在线视频 | 国产精品一区久久久 | 成人在线免费视频 | 一区二区视频在线观看 | 欧美精品一区三区 | 日韩成人免费av |