成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

智能推理新路徑:組合優化在生成式AI中的前沿探索

發布于 2024-7-5 09:12
瀏覽
0收藏

盡管LLMs在生成自然語言文本方面表現出色,但在推理任務中的表現卻不盡如人意。推理任務需要模型具備更高層次的認知能力,包括邏輯推理、因果關系分析和戰略規劃等。然而現有的LLMs在這些方面的能力有限,主要表現在缺乏深度推理能力,LLMs在處理復雜推理任務時,往往依賴于簡單的模式匹配和統計規律,缺乏真正的邏輯推理能力。易受幻覺影響,LLMs在生成文本時,有時會產生與事實不符或無意義的內容,這被稱為“幻覺”現象。這在推理任務中尤為明顯,因為推理任務需要模型生成高度準確和一致的答案。依賴人工提示,現有的許多推理方法,如鏈式思維(Chain of Thought, CoT)和自一致性(Self-Consistency),都依賴于人工設計的提示和示例,這限制了它們的泛化能力和自動化程度。

為了解決這些問題,紐約cosa Computing Inc.公司、NASA ARC量子人工智能實驗室等多個組織的團隊提出了一種新的框架——組合推理(Combinatorial Reasoning, CR)。該框架通過組合優化技術,自動生成用于推理任務的提示,從而提高LLMs在推理任務中的表現。CR框架的核心思想是將從LLM管道中采樣的理由映射為二次無約束二進制優化(QUBO)問題,通過優化選擇有用的理由子集,構建鏈式思維風格的提示。

本研究由來自多個機構的專家團隊合作完成,涵蓋了生成式AI、量子計算、數據科學和優化算法等多個領域。研究團隊成員有紐約Icosa Computing Inc.公司成員Mert Esencan, Tarun Advaith Kumar, Can Unlu, Alan Ho。Icosa Computing Inc. 是一家位于紐約的公司,專注于計算技術和人工智能的前沿研究與開發。團隊成員在生成式AI和優化算法方面具有豐富的經驗。NASA ARC的量子人工智能實驗室的成員Ata Akbari Asanjan, P. Aaron Lott, Davide Venturelli。NASA ARC的量子人工智能實驗室(QuAIL)致力于探索量子計算在人工智能中的應用。該實驗室位于加利福尼亞州的Moffett Field,研究重點包括量子優化和量子機器學習。NASA ARC數據科學組的成員Ata Akbari Asanjan,NASA ARC數據科學組是NASA ARC的一部分,專注于數據分析和機器學習技術的研究與應用。團隊成員在大數據處理和分析方面具有深厚的專業知識。USRA高級計算科學研究所的成員P. Aaron Lott, Davide Venturelli,USRA高級計算科學研究所(RIACS)與NASA合作,進行高級計算和人工智能領域的研究。研究所位于加利福尼亞州的Moffett Field,致力于推動計算科學的前沿發展。惠普實驗室的LSIP(Large-Scale Integrated Photonics)部門成員Masoud Mohseni,惠普實驗室的LSIP(Large-Scale Integrated Photonics)部門位于加利福尼亞州Milpitas,專注于大規模集成光子學和量子計算的研究。團隊成員在物理學和計算科學方面具有豐富的研究經驗。DataStax 公司的成員Alan Ho, DataStax是一家位于加利福尼亞州圣克拉拉的公司,專注于數據管理和數據庫技術。公司致力于提供高性能的數據庫解決方案,支持大規模數據處理和分析。

LLMs概述?

大型語言模型(Large Language Models, LLMs)是基于深度學習技術的機器學習模型,專門用于處理和生成自然語言文本。與傳統的語言模型相比,LLMs擁有極其龐大的參數量,通常達到數十億甚至上百億級別。這些模型通過在海量文本數據上進行訓練,能夠捕捉語言中的復雜模式和結構,從而生成高度連貫和自然的文本。

盡管LLMs在生成和理解自然語言方面表現出色,但在處理需要深度推理的任務時仍存在一定的局限性。為了提高LLMs的推理能力,研究人員提出了多種推理方法,其中最具代表性的是鏈式思維(Chain of Thought, CoT)和自一致性(Self-Consistency)。

1. 鏈式思維(CoT)

鏈式思維是一種通過在提示中加入中間推理步驟來增強LLMs推理能力的方法。具體來說,CoT方法通過手動標注的示例,展示了從問題到答案的推理過程。這些示例被用作提示,指導LLMs生成包含推理路徑的回答。

CoT方法能夠顯著提高LLMs在推理任務中的表現,特別是在需要多步推理的復雜任務中。

局限性是CoT方法依賴于人工標注的示例,這不僅耗時耗力,而且這些示例可能無法泛化到不同類型的任務。此外,手動標注的示例數量有限,難以覆蓋所有可能的推理路徑。

2. 自一致性(Self-Consistency)

自一致性是一種改進的解碼方法,旨在提高CoT提示的性能。與貪婪解碼不同,自一致性方法通過在非零溫度下收集多個樣本,并選擇出現次數最多的答案。這種方法基于這樣一個直觀的假設:推理問題可能有多條正確的推理路徑,但錯誤的推理路徑會導致不同的錯誤答案。

自一致性能夠通過對多個推理路徑進行邊際化處理,生成更準確的答案。這種方法在處理復雜推理任務時表現尤為出色。

自一致性方法同樣依賴于手動標注的示例,并且需要大量計算資源來生成和評估多個樣本。此外,這種方法在處理具有高度不確定性的任務時,可能會面臨性能瓶頸。

盡管這些現有的推理方法在一定程度上提高了LLMs的推理能力,但它們的局限性也顯而易見。為了克服這些局限性,本文提出了一種新的框架——組合推理(Combinatorial Reasoning, CR),通過組合優化技術,自動生成用于推理任務的提示,從而進一步提升LLMs在推理任務中的表現。

智能推理新路徑:組合優化在生成式AI中的前沿探索-AI.x社區

圖1:組合推理的工作流程。LLM對初始提示進行N次處理,并通過語義匹配過程對答案進行過濾,以產生具有不同原因的答案。該系綜被映射到由Ising機器解決的QUBO問題中。最終解決方案確定了一組要添加到最終LLM調用提示中的原因,該調用將確定最終答案。

組合推理(CR)框架

CR框架的提出

隨著生成式人工智能(Generative AI)和大型語言模型(LLMs)的快速發展,這些模型在自然語言處理任務中展現了強大的能力。然而盡管LLMs在生成自然語言文本方面表現出色,但在處理需要深度推理的任務時仍存在顯著的局限性。現有的推理方法,如鏈式思維(Chain of Thought, CoT)和自一致性(Self-Consistency),雖然在一定程度上提高了LLMs的推理能力,但它們依賴于人工標注的示例,難以實現自動化和泛化。

為了克服這些局限性,研究團隊提出了一種新的框架——組合推理(Combinatorial Reasoning, CR)。CR框架的核心思想是通過組合優化技術,自動生成用于推理任務的提示,從而提高LLMs在推理任務中的表現。具體來說,CR框架通過將從LLM管道中采樣的理由映射為二次無約束二進制優化(QUBO)問題,并利用優化技術選擇有用的理由子集,構建鏈式思維風格的提示。

CR框架的四個階段

CR框架包括四個主要階段:理由采樣、QUBO映射、組合優化求解和最終提示創建。以下是每個階段的詳細介紹。

理由采樣

在CR框架的第一個階段,研究團隊需要從LLM中采樣理由。具體步驟如下:

  1. 準備輸入提示:給定一個問題,從數據集中準備N個相同的輸入提示,并在固定溫度下查詢LLM。每個輸出將包含一組理由。
  2. 語義嵌入:使用HuggingFace的Sentence Transformer(如all-mpnet-base-v2)將每個理由嵌入到一個標準化的768維向量中。
  3. 相似度計算:定義兩個理由之間的相似度度量為對應嵌入向量的點積。如果相似度大于某個閾值(如ζ),則認為這兩個理由是相同的。
  4. 理由去重:使用上述相似度計算方法,將所有采樣的理由減少為一個較小的獨立理由集,并生成嵌入向量集合。

通過上述步驟,研究團隊可以得到以下集合:

  • {s}:每個樣本包含一個答案和一組理由。
  • {rtotal}:從LLM中采樣的所有理由集合。
  • {rdistinct}:通過Sentence Transformer選擇的獨立理由集合。
  • ni:每個獨立理由在N個樣本中出現的次數。
  • nij:每對獨立理由在任意一個樣本中共同出現的次數。

這些計數是組合推理的基礎,研究團隊將使用它們來計算QUBO映射中所需的量。

QUBO映射

在CR框架的第二個階段,研究團隊將采樣的理由映射為二次無約束二進制優化(QUBO)問題。具體步驟如下:

  1. 定義變量:將每個獨立理由與一個整數變量zi關聯。變量的整數范圍選擇為二進制編碼的最大冪。
  2. 構建目標函數:目標函數由兩個部分組成:L和Q。
  • L:基于理由出現頻率選擇理由。定義pi為理由的“流行度”,ri為頻率的標準差模塊。
  • Q:捕捉理由之間的相關性。定義cij為兩個理由之間的連接相關性。
  1. 目標函數公式:
  • L = ∑li(μ, α)zi = ∑[μ pi - αri] zi
  • Q = ∑qij (β)zizj = ∑[cij - cˉ- β δc] zizj
  1. QUBO形式:通過二進制編碼公式,將目標函數轉換為QUBO形式。

通過上述步驟,研究團隊可以將采樣的理由映射為一個QUBO問題,準備進行組合優化求解。

組合優化求解

在CR框架的第三個階段,研究團隊使用伊辛機和其他優化技術求解QUBO問題。具體步驟如下:

  1. 配置伊辛機:使用預定義的參數設置策略配置伊辛機,旨在找到最合適的解決方案。
  2. 求解QUBO問題:伊辛機通過模擬退火、自適應并行回火等技術,優化QUBO問題,找到全局最優解或近似解。
  3. 選擇理由:根據優化結果,選擇zi > 0的理由,并為每個理由分配一個相對重要性的權重w。

通過上述步驟,研究團隊可以得到優化后的理由集合,為最終提示創建做好準備。

最終提示創建

在CR框架的最后一個階段,研究團隊根據優化結果創建最終的提示,并用于LLM的查詢。具體步驟如下:

  1. 映射回理由集合:將QUBO問題的最佳候選解決方案映射回理由集合,每個理由前面加上其權重w。
  2. 排序和組合:根據權重對理由進行排序,并組合成一個提示字符串。
  3. 生成最終提示:將組合好的提示字符串用于LLM的查詢,以零樣本模式進行推理任務。

通過上述步驟,研究團隊可以生成一個包含優化理由的提示,提高LLM在推理任務中的表現。

組合推理(CR)框架通過組合優化技術,自動生成用于推理任務的提示,克服了現有推理方法的局限性。CR框架包括理由采樣、QUBO映射、組合優化求解和最終提示創建四個階段,通過優化選擇有用的理由子集,構建鏈式思維風格的提示,從而提高LLMs在推理任務中的表現。

實驗結果與分析

實驗設置

研究團隊使用了GPT-3.5-turbo-0125作為實驗所用的大型語言模型(LLM)。GPT-3.5-turbo是OpenAI開發的一系列模型之一,專門用于生成類人自然語言文本。該模型具有16,385個上下文窗口,并能返回最多4,096個令牌的輸出。為了確保實驗的公平性和一致性,研究團隊選擇了BIG-bench Hard(BBH)任務集進行評估。BBH任務集包含了一系列推理導向的問題,這些問題在過去對LLMs來說一直是具有挑戰性的。

為了節省推理時間和成本,研究團隊從每個子任務中隨機抽取了50個問題,共計1350個問題,組成了一個評估集。在這個評估集上,研究團隊將CR框架與以下幾種方法進行比較:

  1. 修改版零樣本提示
  2. 通用自適應提示(USP)
  3. 標準三樣本鏈式思維(CoT)提示

在理由采樣階段,研究團隊對LLM進行了N=210次采樣,溫度設為1,以收集足夠的獨立理由,并計算它們的分布和相關矩陣。相似度閾值ζ設為0.90,這一數值是通過對測試問題的經驗確定的。在運行QUBO映射之前,研究團隊使用Optuna框架對映射參數進行了調優,選擇了最優的參數值。

智能推理新路徑:組合優化在生成式AI中的前沿探索-AI.x社區

圖2:組合推理(CR)相對于其他方法的性能。人類和USP結果分別來自BBH和USP的出版物。USP在不同但可比較的LLM PaLM 2-M上進行評估。

實驗結果

實驗結果顯示,CR框架在BBH任務集上的表現優于其他零樣本方法。具體結果如下:

  1. 平均表現:CR框架的平均準確率為59.88%,顯著高于零樣本提示(47.68%)和通用自適應提示(55.89%),但低于三樣本CoT提示(74.20%)。
  2. 平均排名:CR框架在所有方法中的平均排名為2.57,優于零樣本提示(3.22)和通用自適應提示(2.78),但不及三樣本CoT提示(1.35)。

智能推理新路徑:組合優化在生成式AI中的前沿探索-AI.x社區

圖3:具有線性CR和隨機原因的二次CR(與正文相同)的基線分析。十個數據集的總體性能為二次CR:65.2%,線性CR:68.2%,隨機:57.4%. 包括0次和0次CoT結果以供參考。根據0-發射CoT的性能對各個任務進行排序。

此外研究團隊還進行了人工評估,驗證了CR框架在每個階段的效果。結果表明,CR框架通過優化顯著減少了獨立理由的數量,提高了提示的質量。

結果分析

通過對實驗結果的分析,研究團隊發現CR框架在不同任務上的表現具有以下優勢和不足:

優勢是

  1. 自動化程度高:CR框架通過組合優化技術,自動生成用于推理任務的提示,減少了對人工標注示例的依賴,提高了提示生成的自動化程度。
  2. 推理能力增強:CR框架通過選擇有用的理由子集,構建鏈式思維風格的提示,顯著提高了LLM在推理任務中的表現。
  3. 適應性強:CR框架能夠適應不同類型的推理任務,通過優化選擇最相關的理由,提高了提示的準確性和相關性。

不足的問題是

  1. 計算資源需求高:CR框架在理由采樣和QUBO映射階段需要大量的計算資源,特別是在處理大規模數據集時,計算成本較高。
  2. 復雜任務表現有限:盡管CR框架在大多數任務中表現優異,但在一些復雜任務(如形式謬誤類別)中,仍存在一定的性能瓶頸。這可能是由于QUBO映射和組合優化求解器的局限性所致。
  3. 語義匹配改進空間大:在理由采樣階段,盡管使用了Sentence Transformer進行語義嵌入和相似度計算,但仍有許多語義相同的理由被識別為不同。改進語義匹配程序可以進一步提高QUBO映射和整個CR框架的有效性。

CR框架通過組合優化技術,顯著提高了LLM在推理任務中的表現,展示了其在生成式AI推理任務中的巨大潛力。然而,未來的研究仍需在計算資源優化、復雜任務處理和語義匹配改進等方面進行進一步探索,以充分發揮CR框架的優勢。

研究總結

論文提出的組合推理(Combinatorial Reasoning, CR)框架,通過組合優化技術,顯著提升了大型語言模型(LLMs)在推理任務中的表現。

CR框架通過將從LLM管道中采樣的理由映射為二次無約束二進制優化(QUBO)問題,并利用優化技術選擇有用的理由子集,自動生成用于推理任務的提示。這一方法減少了對人工標注示例的依賴,提高了提示生成的自動化程度。

通過選擇有用的理由子集,CR框架能夠構建鏈式思維(Chain of Thought, CoT)風格的提示,顯著提高了LLM在推理任務中的表現。實驗結果顯示,CR框架在BIG-bench Hard(BBH)任務集上的平均準確率為59.88%,優于其他零樣本方法。

CR框架能夠適應不同類型的推理任務,通過優化選擇最相關的理由,提高了提示的準確性和相關性。實驗結果表明,CR框架在多個推理任務上表現優異,展示了其廣泛的適用性。

通過在GPT-3.5-turbo-0125模型上進行實驗,驗證了CR框架的有效性。實驗結果顯示,CR框架在平均表現和排名上均優于其他零樣本方法,證明了其在推理任務中的優勢。

盡管CR框架在推理任務中表現出色,但仍有一些不足之處需要改進。例如,計算資源需求高、復雜任務表現有限以及語義匹配程序有待優化等。這些問題為未來的研究提供了方向和挑戰。

CR框架在生成式AI推理任務中的應用前景廣闊,未來的研究可以在以下幾個方面進行探索和改進。

優化時間和準確性:進一步優化語義匹配程序,通過調整相似度閾值或采用更高級的語義匹配算法,提高QUBO映射的有效性。QUBO映射:優化目標函數的構建,增加對高階相關性的考慮,研究圖的屬性和自旋玻璃的物理特性,以提高最終答案的準確性。組合優化求解器:探索使用更高效的求解器,如硬件高效的數字實現和量子求解器,通過混合策略進一步提高求解效率和準確性。

框架的泛化:將定理證明器(如Z3)集成到CR框架中,作為后處理步驟來消除沖突理由,結合概率求解器和確定性求解器的方法,在開放域問題上實現更高效的推理。與檢索增強生成(RAG)的集成:將檢索增強生成技術集成到CR框架中,通過語義搜索從知識庫中檢索相關信息,并將其作為上下文加入到理由采樣過程中,提高推理的準確性和相關性。

在不同應用場景中的潛力:在金融領域CR框架可以用于風險評估、投資組合優化和市場預測等任務,通過自動生成推理提示,提高決策的準確性和效率。醫療領域:在醫療領域,CR框架可以用于疾病診斷、治療方案推薦和醫學研究,通過結合醫學知識庫和推理能力,提供更精準的醫療建議。法律領域:在法律領域,CR框架可以用于法律推理、案件分析和法律文書生成,通過自動生成法律推理路徑,提高法律工作的效率和準確性。

組合推理(CR)框架通過組合優化技術,顯著提高了LLM在推理任務中的表現,展示了其在生成式AI推理任務中的巨大潛力。未來的研究可以在優化時間和準確性、框架的泛化和不同應用場景的擴展等方面進行進一步探索,以充分發揮CR框架的優勢。通過不斷改進和擴展,CR框架有望在更多領域中實現廣泛應用,為復雜推理任務提供更高效和智能的解決方案。(END)

參考資料:https://arxiv.org/pdf/2407.00071

本文轉載自 大噬元獸,作者: FlerkenS

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美色综合网 | 午夜男人天堂 | 黑人精品| 国产成视频在线观看 | 精品国产免费人成在线观看 | 国产精品久久久久久久久久久久午夜片 | 久久99精品久久久久久国产越南 | 欧美日韩中文在线 | 密室大逃脱第六季大神版在线观看 | 日一区二区 | 91精品国产一区二区 | 91美女在线观看 | 中文字幕一区二区三区精彩视频 | 国产成人精品午夜视频免费 | 亚洲免费在线观看 | 成人午夜黄色 | a久久| 999久久精品 | 一区二区精品 | 久草视频在线播放 | 欧美成年视频 | 国产精品久久久久久久久久久久 | 国产精品一区二区av | 毛片免费在线 | 欧美中文字幕一区二区三区亚洲 | 色婷婷综合久久久久中文一区二区 | 手机在线一区二区三区 | 久色一区 | 亚洲成a人片 | 欧美在线视频免费 | 全部免费毛片在线播放网站 | 暴草美女 | 久久久久久国产 | www.9191.com| 日韩视频国产 | 久草视频在线播放 | 天天干人人 | 国产精品久久久久久久久久免费看 | 国产一级成人 | 色吊丝2288sds中文字幕 | 国产在线精品一区二区 |