成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

領域大模型的挑戰與機遇:從構建到應用

人工智能
本文將介紹復旦大學知識工場實驗室關于領域大模型的研究工作。大模型是目前唯一能利用人類常識進行開放推理的技術。傳統常識知識圖譜在靈活應用常識于開放推理場景上受限,而大模型則能克服這一限制。

一、背景

圖片

來自 GPT4 的技術報告中指出,GPT4 仍處于通用人工智能(AGI)的初級階段。而目前研發中的 GPT4.5 或 GPT5 則已展現出了 AGI 的某些特征。

圖片

GPT4 的出現給研究和工業界帶來了巨大沖擊,其顯著特點是擁有強大的底座知識能力,超越了傳統知識圖譜,蘊含豐富的世界知識和人類常識。它能夠解答各種復雜問題,包括腦筋急轉彎等。對專注于知識圖譜的從業者來說,常識一直是知識領域最難解決的問題,但大模型似乎輕松解決了這一問題。因此,我們不禁要問:大模型是否終結了知識工程呢?

圖片

大模型是目前唯一能利用人類常識進行開放推理的技術。傳統常識知識圖譜在靈活應用常識于開放推理場景上受限,而大模型則能克服這一限制。

圖片

大模型具備開放世界的理解能力,能輕松處理具體場景問題,例如,在給大模型藥品說明書的情況下,面對一些具體場景的問題,大模型能輕松推理并回答。

圖片

大模型不僅限于單步問答,還能連續執行動作,形成 Agent。通過 Agent,大模型能一步步執行,去處理更復雜的一些任務,如編寫代碼或在 Minecraft 中收集原材料、制作工具等。

圖片

盡管大模型具有獨特的甚至不可替代的優點,但我們也面臨著大模型難以在領域落地的實際挑戰。為什么這么強的大模型現在不能很好地被應用呢?我們也尚未看到大模型引領的工業革命的進行。這主要是由于推理成本、能力缺陷和難以協同三方面的挑戰。

圖片

挑戰一:大模型的推理成本限制其應用。構建和使用大模型都需要大量資源,且在實際應用中大模型的推理速度相對較慢,即使是經過優化的版本,處理文本分析仍需數秒。這與傳統應用場景如文檔搜索和索引的速度相差甚遠,后者能在一秒內處理數十甚至上千篇文檔。此外,隨著大模型上下文長度的增加,如達到幾十萬 token,處理整個文檔庫將需要巨大的計算資源,導致推理成本進一步上升。這種高成本使得大模型在需要大規模重復應用的場景中變得不切實際。盡管有些企業愿意投入更多成本,但即使采購了大量計算資源并采用最新的推理技術,大模型是否能夠真正完成任務并創造價值呢?

圖片

挑戰二:大模型在復雜決策場景仍有缺陷。盡管大模型在聊天機器人等開放式閑聊場景中表現出色,但在工業、商業等嚴肅場景中,如替代程序員編寫代碼,大模型目前仍顯不足。從開放式閑聊到復雜決策,大模型還有很長的路要走。目前的大模型,如 GPT-3 或 GPT-4,無法直接應用于特定場景,仍需要用戶通過多次交互和提供 prompt 來引導。盡管許多工作正致力于提升大模型的能力,有可能發布的 GPT-4.5 或 GPT-5 等新一代模型能進一步提升性能,但即便如此,是否足夠滿足實際應用需求仍存有疑問。

圖片

挑戰三:大模型在企業應用中需要協同能力和可控性。即使招聘了天才員工,也需要時間適應企業流程。同樣,大模型也需要時間與企業現有流程相融合。即使大模型有能力重塑整個企業流程,但這也可能帶來不穩定和風險,因此直接替換原有系統并不現實。實際上,人們期望大模型能夠在人機協作中發揮作用,嵌入現有系統,輔助升級特定環節,而非全面替代。因此,大模型與現有業務人員或系統的對接能力,即其協同能力和可控性,顯得尤為重要。在實際應用中,我們更看重大模型能否在特定環節上協同工作,而非僅僅追求其在某些測試中的高分表現。

二、大模型的領域適配

圖片

第二部分是關于大模型領域適配的研究。當前,領域大模型如醫療大模型、金融大模型等備受關注。持續預訓練是構建這些模型的基本方法,雖然簡單且開源,但數據問題至關重要。在選擇訓練數據時,面臨兩個主要挑戰:一是數據質量,即什么樣的數據是好的;二是數據配比,即如何平衡不同來源的數據。如維基百科與網絡小說在數量和性質上存在顯著差異,配比比例難以確定。過分依賴單一數據源可能導致模型出現偏差。如僅依賴維基百科可能導致模型缺乏娛樂性和現實感,而過多使用網絡小說可能導致模型產生不符合實際情況的認知。

圖片

在領域大模型的訓練中,數據的選擇是一個關鍵問題。我們將數據分為三層:第一層是基礎且不必要的數據,這些數據對于大模型來說已經足夠了解,無需再重復訓練;第二層是過于細節且不必要的數據,如實時股價等,這些數據對于人類專家來說也無需背誦,不適用于訓練大模型;最重要的是中間層,即高價值行業數據,這些數據對于微調大模型至關重要。然而,這些行業數據數量稀少且收集成本高,導致精品語料占比小,而“垃圾”語料卻占據大部分。盡管如此,兩者都是不可或缺的。

圖片

針對數據選擇的問題,我們提出了一個創新的解決方案。在訓練大模型時,無論是預訓練還是微調,我們為語料添加了一個特殊的標記,以指示其來源,如“維基”、“新聞”、“小說”或特定網站(如“起點”)。這樣,模型就能像人一樣區分不同來源的數據,從而更加準確地評估其可靠性。實驗證明,這種簡單的“來源增強”方法在許多小任務中的表現,甚至超越了未增強的更大規模的模型。

圖片

我們還有一些特別的發現。在下游任務中,如果我們提供任務相關信息,如論文分析或科幻小說創作,模型的表現會進一步提升。即使沒有這些信息,經過來源增強的模型本身也優于未增強的模型。關于來源標簽的選擇,我們發現具體的標簽表達方式并不重要。即使使用抽象字符對語料進行分類,也能增強模型效果。然而,帶有語義的標簽,盡管表達方式沒有嚴格規定,卻能帶來更顯著的增強效果。

圖片

我們正在研究一個工作,就是將語料進行系統化分類,類似于知識圖譜中的整體分類。嘗試使用這些分類來預訓練模型,希望獲得更強大的能力。目前,我們已經初步建立了訓練語料分類體系,并取得了一些積極的結果。這些分類不僅存在于語料中,而且確實能有效增強模型的能力。

三、大模型的能力提升

圖片

接下來探討領域微調和能力提升。我們強調大模型協同能力的重要性,而不僅僅是模型在 MMLU 等考試題中的表現。首要工作是提升大模型理解復雜指令的能力。這與 GPT-4 Turbo 的發布會中提到的類似,即確保模型能準確輸出可解析的 JSON 格式。我們發現,模型能否給出固定、可對接的表達至關重要。因此,我們需要評估并提升模型理解復雜指令的能力。這些指令可包括各種特定要求,如格式約束(如 JSON 輸出)、內容約束(如簡短或詳細回答)等。通過將不同類別的特殊要求自由組合來測試模型是否能遵循這些復雜指令。這樣,大模型不僅能作為聊天機器人,還能更準確地滿足用戶在創作文章或作為 Agent 的執行器時的各種需求。

圖片

我們將復雜指令分為 8 個維度,通過自動化組合這些維度生成數據。在模型評估方面,我們更關注模型是否滿足要求而非其智商或輸出質量。由于是否符合要求可以通過程序自動判定,我們能夠實現自動評估的效果。

圖片

當遇到復雜指令,如告訴 Agent 一個復雜指令:從特定行為中選擇并以 JSON 格式輸出,同時避免多余推理。可以發現,每一個任務都能通過嚴謹程序進行判別,從而避免了精確匹配、模糊匹配以及大模型打分的局限,實現了更精準的能力評估。然而,最終的結果并不理想。在面臨 1—3 條復雜指令時,大多數模型能完全遵從;而一旦指令數量增至五條或更多,大部分模型都會遺漏或無法完成部分指令。

圖片

在工業場景中,大模型的數學能力雖受關注,但其在量綱理解上表現出了局限性。特別是在工業場景中單位至關重要,文檔與實驗報告中的單位錯誤會導致分析錯誤放大至 100 或 1000 倍。

圖片

我們的工作基于物理學中的量綱定義,構建了包含量綱組合知識的語料庫,并據此預訓練模型。通過這種方法,預訓練出的模型在帶有單位量的推理任務中表現出色,甚至超越了當時 GPT4 的性能。

圖片

接下來的工作專注于提升大模型的自我糾正能力。對于復雜的專業問題,大模型不應僅提供一次性的答案,而應像專家一樣進行思考和修正。因此,我們設計了一個大模型“內在的自我糾正”機制,設計構造自我糾正數據集,通過指令微調,并提出了部分答案掩碼(PAM)訓練方法,激發大模型在問答時進行自我迭代修正。具體來說,將數據中的問答對[Q/A]擴展為[Q/A1,A2,A3],并確保每次迭代中的答案[A2]優于[A1],[A3]優于[A2]。通過微調大模型,使其具備自我糾正的能力,即當給出初始答案[A]后,通過追問得到更完善的答案[A1、A2]。這種自我增強方法不僅提高了答案的正確率,而且將會應用于更大規模的模型訓練中。

圖片

在命令生成領域也應用了自我糾正能力。考慮到在使用命令行時,用戶可能無法一次性輸入正確的命令,而是需要根據報錯信息進行修改和調整。我們借鑒了這一機制,將其應用于大模型中,使大模型能夠基于報錯信息或其他反饋進行自我修正,從而提高命令生成的準確率。

四、大模型的協同工作

圖片

最后來討論一下大模型的協同工作能力。協同能力的重要性超越了大模型本身智能水平或特定任務的評分。我們判斷,當前大模型能力仍不足以完全替代目前較為成熟的知識工程流程。大模型追求的是“端到端”的解決方案,即從原始文檔和用戶問題直接輸出答案。然而,傳統的知識工程流程更為復雜,包括檢索、知識抽取、構建知識庫、檢測一致性、調整知識庫以及進行知識檢索和推理等多個步驟。

圖片

大模型雖功能強大但成本高昂,并非所有流程都需其參與。從數據層面和應用特點出發,可以將任務分類。對于大部分任務,傳統BERT 模型即可實現 80% 至 90% 的準確率,僅在處理極端復雜句子時,大模型才是不可或缺的。對于大量語料的知識抽取和初步驗證,傳統模型因其高效和低成本而更為合適。然而,在知識庫糾錯和常識檢測等需要開放性和高級理解的環節,大模型則成為了唯一選擇。因此,大模型與小模型應協同工作,如上圖中的兩個典型例子,要根據任務需求去適配并執行一個流程。

圖片

為什么要這樣設計?關鍵要明確大模型適用的任務。大模型的作用主要體現在三個方面:首先,它擁有不可替代的常識驗證和推理能力;其次,作為高準確率的保底或教師方案,大模型能用于構建數據或指導小模型;最后,大模型是目前最強大的 Few-shot Learner,支持通過 Few-shot 方案進行微調。

圖片

第一個工作針對知識抽取,雖是一個傳統的 NLP 任務,但可以發現大模型在知識抽取中面臨特定挑戰。不同于其他 UIE(通用信息抽取)方法,大模型關注于對齊能力而非單純的抽取能力。例如,在 NER 任務中需要決定“中山公園”中的“孫中山”是否應被抽取為實體,這取決于數據集和應用場景。為了應對這種細微差別,我們微調了一個抽取模型底座,該底座集成了多種抽取任務。然而,這個模型底座在使用前需要針對應用場景進行對齊,確保其準確捕捉特定需求。在新聞人物信息抽取任務中,僅使用 300 條數據微調達到了 92% 的準確率;而使用 ChatGPT 僅有 60% 準確率,這主要由于 prompt 很難準確描述抽取的具體細節要求。

圖片

第二個工作是針對一個綜合的知識抽取任務,融合了實體抽取、實體對齊和實體關系抽取等多個子任務。這些子任務在大小模型上的適應性各不相同。通過適當選擇,部分使用大模型,部分使用小模型,能夠實現既超越大模型又優于單獨小模型 SOTA 的結果。

圖片

第三個工作是利用大模型進行常識驗證,通過構建特定的 prompt 將相關證據組合,讓大模型判斷其中是否存在常識錯誤。這種方法超越了傳統規則推理的局限,能夠提供更為準確的推理結果。

圖片

大模型在特定領域應用中并非能力不足,而是缺乏與領域的協同性。對于特殊需求,如 NL to SQL,需要通過微調使大模型適應特定任務。例如,在理解“基金表現最好”時,若未被告知其特定業務含義,大模型可能不準確。因此,需要在特定領域微調大模型。我們的做法是反向利用表格生成自然語言描述,再通過業務和產品經理的規則修正,最后訓練模型以學習這些特定知識。除非面對極端復雜問題,否則大部分大模型的智能水平是足夠的,關鍵在于任務協同和與現有流程的對齊。

圖片

盡管在大模型上下文長度非常長的情況下,檢索后回答 RAG 在當前大模型時代仍顯重要。由于成本考慮,不是所有問題都適合用大模型處理大量 token。目前常用下拉數據庫或單數據缺口方法,但在專業領域需要精確匹配。稀疏檢索(如 BM25)在常見精確問題中效果好但缺乏語義泛化性,而稠密檢索(如 BGE)雖效果好但易召回語義相近但不準確的內容。因此,我們致力于融合這兩種方法,根據問題中是否含有專有名詞來決定檢索策略。若問題中專有名詞分數高,則增加稀疏檢索比重,來提升領域任務的檢索效果。

圖片

最后關于 RAG,聚焦于 AIGC 的可靠性問題。當前,即使大模型展現出高度智能,人們對其答案的準確性仍持懷疑態度,形成了所謂的“狼來了”現象。因此,在專業領域,我們強調只有可溯源的結果才能贏得用戶的信任。RAG 系統要實現大模型在回答問題時能夠引用原文,確保答案的可靠性和準確性。以 New Bing 的精確模式為例,即使搜索的網頁內容正確,其答案仍可能出錯。

圖片

我們的工作思路是采用解碼硬約束方案,通過在微調階段給大模型標記特殊括號,實現特定部分的直接原文接管。一旦特殊括號標記出現,其后的內容將直接由算法接管,借助原文后綴樹進行填充,確保該部分與原文完全一致。這種方法確保了兩個標記間的內容為原文內容,同時利用模型的推理能力生成答案,避免了傳統方法的生硬和推理能力低下的問題。

以上就是我們針對領域大模型落地應用方面所進行的一些研究,謝謝大家。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2018-04-11 16:52:44

2024-04-02 07:25:19

大語言模型青少年編程NLG

2024-07-09 11:01:24

2024-07-10 11:38:15

2023-04-18 12:09:39

2021-04-25 14:35:52

物聯網半導體公司IoT

2020-04-09 22:05:37

人工智能能源AI

2025-01-26 15:35:01

AIOps人工運維ChatOps

2025-03-03 08:53:23

2021-06-29 11:20:15

IIoT 系統工業物聯網物聯網技術

2024-12-23 00:27:40

2024-11-11 17:16:44

2016-12-29 11:29:45

云計算

2017-04-24 08:54:56

區塊鏈結算比特幣

2011-10-27 09:42:17

諾基亞諾基亞世界大會

2021-09-15 11:19:55

物聯網邊緣計算IoT

2021-09-16 15:59:07

無代碼無代碼技術

2022-10-13 15:34:21

網絡安全智能建筑智能社區
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天爱天天操 | 精品中文在线 | 亚洲欧美在线一区 | 欧美日本免费 | 乱码av午夜噜噜噜噜动漫 | 亚洲精品欧美一区二区三区 | 992tv人人草 久久精品超碰 | 久久久精品一区二区三区四季av | 日韩精品中文字幕在线 | 一区二区三区高清不卡 | 狠狠操狠狠操 | 99久久精品国产毛片 | 欧美影院| 成人在线a | 国产精品久久久久久久久久久久久久 | 三级黄色片在线 | 性一交一乱一伦视频免费观看 | av一二三四 | 久久久网 | 国产人成精品一区二区三 | 亚洲精品黄色 | 国产欧美日韩综合精品一区二区 | 美国十次成人欧美色导视频 | 国产在线1区 | 91精品国产91久久久久福利 | 日韩乱码在线 | 91精品国产91久久综合桃花 | 成人性视频免费网站 | 成人精品一区二区户外勾搭野战 | 一本综合久久 | 黄色在线免费播放 | 午夜丁香视频在线观看 | 久久网国产 | 皇色视频在线 | 国产日韩一区二区三区 | 中文字幕高清一区 | 激情五月婷婷 | 久久精品中文 | 国产精品特级毛片一区二区三区 | 久久精品91| 日韩精品久久久久 |