成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

浙大開源“最懂Excel的GPT”!首次將結構化數據作為獨立模態訓練,刷榜提升40百分點

人工智能 新聞
這就是由LeCun高徒、浙江大學博導趙俊博領銜打造的TableGPT2。

大模型理解復雜表格,能力再次飛升了!

不僅能在不規則表格中精準找到相關信息,還能直接進行計算。

比如提問:

如果2022年出口總額的人民幣計價比實際數值少了10%,請計算新的出口總額并與實際數據比較。

普通的大模型要么找不到正確的單元格信息,要么會計算錯誤。

而最新模型給出了正確回答:

實際出口總額為121324327.3663萬元,減少10%后的出口總額為109191894.62967001萬元。

圖片

這就是由LeCun高徒、浙江大學博導趙俊博領銜打造的TableGPT2

它首次將結構化數據作為獨立模態進行訓練,這意味著大模型將不再依賴長上下文窗口,而是直接理解數據庫、Excel、數倉中的數據,進而搞定SQL、分析、增刪改查等相關任務。

圖片

要知道,結構化數據已是無處不在,從BI(商業智能)到當下爆火的具身智能,大模型想要被更充分精準應用于這些領域,就不能再單純以“文科生”的形式去學習。

圖片

由此趙俊博等人耗時1年帶來了更強大的TableGPT2。

在23個基準測試中,TableGPT2都表現優異,平均性能提高35.20%(7B模型)和49.32%(72B模型)。

目前團隊已將兩個版本的模型、一個Agent工作流以及RealTabBench中的一個子集開源。

關鍵在表格編碼器

在TableGPT2之前,業界幾乎沒有人嘗試將結構化數據作為獨立模態。這主要有兩方面原因——

第一,數據庫中表格的空間關系存在特殊性。比如在圖像視頻上任意交換像素或者詞的token,都會改變數據的本質,這說明兩種模態之間具備空間依賴關系。但是在數據庫的表格中,隨機交換2行或2列數據,表格本身并不會變化。目前我們缺乏工具和手段去應對結構化數據這種特點。

第二,結構化數據存在異質性。比如在CV領域,RGB是很客觀的表達,紅色就是紅色,藍色就是藍色,自然語言也是一樣。但是在結構化數據中,同樣一個表格字段下面的標記,在不同數據庫里的意義可能截然不同。比如都是“1,2,3”,不同圖表中表示的內容可能完全不同。所以這種“異質性”要求大模型對整體的庫、表和字段都有理解,才能給出實際意義。這部分的對齊和傳統LLM對齊不太一樣。

圖片

不過這些問題也不是完全不能解決。

趙俊博介紹,針對表格數據,如果掩碼掉一個“子表”的一些單元格,加上字段、數據庫的信息輔助,是可以才出來掩碼信息的內容。這意味著盡管結構化數據的空間關系比較弱,但是本身還是有分布可以去學習的。

由此,研究團隊提出了TableGPT2工作。

它基于Qwen2.5系列模型,使用超過860億token進行預訓練,給大模型喂入了超過59.38萬張表和236萬高質量的查詢-表-輸出樣本,并創新性加入了一個表格編碼器,專門用于讀取和解釋表格數據。

圖片

模型主要框架包括以下幾個部分:

  • 表格編碼器
  • LLM解碼器
  • 持續預訓練
  • 監督微調
  • Agent工作流

表格編碼器支持輸入整個表格,生成每列的緊湊嵌入。

采用雙維注意力機制,無需位置嵌入,同時進行分層特征提取,確保行和列的關系被有效捕捉。

再使用列對比方法,鼓勵模型學習有意義的、結構感知的語義表示。

具體實現上,通過Q-former樣式適配器對齊嵌入和文本輸入,引入可學習的查詢。

使用特殊標記(如”“和”“)區分表格特征與文本,這樣模型可以同時處理兩種模態。

應用聯合指令微調來增強文本信息、列嵌入和模式單元數據之間的對齊,提高模型對表格數據的理解和解釋能力。

值得一提的是,這個表格編碼器可以單獨使用。作者團隊透露,后續還將發表相關論文。

圖片

LLM解碼器則基于Qwen-2.5模型,用于自然語言生成。

具體訓練部分,預訓練階段首先針對模型的編碼和推理能力進行加強。80%的預訓練數據是有優質注釋的代碼,這和DeepSeek-v2的方法一致,以確保強大的編碼能力。

同時還融入了大量推理數據和特定領域知識(比如金融、制造、生物等),以增強推理能力。

在數據處理層面,采用兩級過濾策略。

文檔層面將數據標記為54個不同類別,token層面利用RHO-1來微調高質量token。

圖片

預訓練部分的數據由86B個token組成。

圖片

進行監督式微調主要是為了提高模型在BI特定任務中的表現。

作者構建了一個包含236萬條樣本的數據集,主要覆蓋多輪對話、復雜推理、工具使用和高度特定的業務查詢場景,包含代碼生成、數據可視化、統計測試和預測建模等表格任務。

通過模糊化字段引用、匿名化字段名等方法增強模型在處理復雜任務時的魯棒性。

最后來看Agent框架。

該框架由運行時prompt、代碼沙箱和agent評估模塊共同增強agent的能力和可靠性。

具體工作流如下。首先通過prompt模塊處理輸入查詢,經過檢索增強處理后將查詢輸入到主模型中。然后TableGPT2與VLM協作,生成工具調用、代碼或其他相關操作。利用智能體的反思能力,觀察中間結果,判斷是否需要迭代。最終得到輸出。

圖片

部分基準下超越GPT-4o

實驗階段,作者將TableGPT2與其他大模型進行性能對比。

對比對象主要分為兩類。

第一類為主流開源大模型,包括DeepSeek-Coder-V2-Lite-16B、YiCoder-9B-Chat、Qwen2.5-Coder-7B-Instruct和Qwen2.5-7B-Instruct。

第二類為針對表格相關任務進行微調或專門開發的模型。包括TableLLMs和CodeLlama-13B。

實驗主要評估模型的6方面任務:表格理解、問答、事實論證、表格到文本、自然語言到SQL、整體評估。

圖片

在不同benchmark上,各個模型表現如下。TableGPT2顯著優于絕大部分其他模型,并在一些基準上超越GPT-4o。

圖片

結果顯示,TableGPT2的7B模型和72B模型的平均準確率分別提高了35.20%和49.32%。

此外,考慮到當下benchmark中針對表格異形問題、匿名問題或者治理較差的情況兼顧不佳,而實際落地中90%以上case都會出現類似情況。

作者還構建了一個新的benchmark—— RealTabBench。它更加關注實際應用中真實出現的問題。

結果顯示在RealTabBench上,TableGPT2表現也是最好。

圖片

另外,TableGPT2不會導致基座模型通用能力下降。

圖片

LeCun高徒“砸鍋賣鐵”開發

該研究來自浙江大學計算機與科學技術學院計算創新研究所。

由助理教授、博士生導師趙俊博領銜。

圖片

趙俊博于2019年獲得紐約大學計算機專業博士學位,師從圖靈獎得主、Meta首席AI科學家、紐約大學教授Yann LeCun。

他曾在Meta(原Facebook)人工智能實驗室(Facebook AI Research)任研究員,期間深度參與了深度學習主流框架PyTorch和向量數據庫Faiss的開發,并曾參與了內部通用對話機器人項目的前沿研究,該工作被視為大模型方向的早期產品化工作之一。

曾于2015年供職于英偉達半年時間,聯合主持開發了全球首個端到端的自動駕駛解決方案,該工作由英偉達創始人Jensen Huang在次年的GTC 大會上做隆重介紹。

截至目前論文總被引數已超過20000次。

圖片

去年,趙俊博主持研發了TableGPT。

這是全球首款對接關系數據庫和數據倉的大模型產品。

圖片

2024年,團隊又繼續“砸鍋賣鐵”,給TableGPT升級了V2版本。

圖片

作為高校團隊,開發一個大模型意味著算力上要砸錢、數據收集工程優化上要出人,這中間有非常多的坑,需要消耗巨大人力財力。

而且TableGPT2的開發還有著諸多難點。

首先在技術上,構建一個在table上單獨模態的編碼器很難弄。它獨有的復雜結構和空間特點,以及字段語義信息對齊等,都有考驗。

其次在數據方面。結構化數據怎么收集、清洗?標簽體系怎么定制?如何把合成數據和人工數據合并?怎么做到成本可控,都是問題。

以及監督微調部分,不光需要輸入輸出樣本對,而且需要收集表,專業領域的數據表還需要專業人士進行標注……

不過為啥還是要做呢?

因為他們看到了大模型理解結構化數據背后更廣闊的應用前景。

趙俊博向量子位介紹,作為高校團隊,他們現在的工作更多是為了“趟路”。

做結構化這件事,我們不會停留在Excel或者數據庫上面,下一步技術發展肯定是往硬件和具身智能領域上走。

靈巧手的觸覺信息,還有具身智能領域的視覺、聽覺等,廣義來說都屬于結構化數據,我們還想往這個方向再往前一步。

與此同時,TableGPT2也會在產業落地上試水,希望能給從業者提供更好用的底座模型。

目前,團隊已經開源了這項工作的多個成果,后續也會發布表格編碼器的相關研究,感興趣的童鞋可以進一步了解~

[1]論文地址:https://arxiv.org/html/2411.02059v1

[2]一個可用agent的git倉庫: https://github.com/tablegpt/tablegpt-agent

[3]模型開源:https://huggingface.co/tablegpt/TableGPT2-7B 

責任編輯:張燕妮 來源: 量子位
相關推薦

2016-08-12 16:20:30

2009-01-08 09:26:53

AMD拆分AMD股份AMD股票

2015-11-25 13:58:40

2021-10-14 18:55:17

百分點科技DeepMatrix

2017-07-12 15:30:59

人工智能知識圖譜深度學習

2023-03-31 09:08:33

百分點數據科學

2016-03-24 15:12:33

2024-12-06 14:19:50

2015-12-04 14:49:21

ios9

2017-12-15 14:52:55

百分點

2018-05-25 18:52:16

百分點,大數據

2025-03-03 07:39:23

2013-09-03 10:11:37

Windows 8Mac OS X

2018-05-25 18:49:27

百分點,AI,人工智能

2023-05-04 08:07:38

微軟Windows

2015-09-13 09:29:52

百分點

2009-02-12 09:50:55

軟件出口外包增長

2013-03-04 16:34:15

瀏覽器

2013-06-03 09:57:52

瀏覽器

2024-09-24 13:00:00

大語言模型AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久操福利| 精产国产伦理一二三区 | 国产成人精品午夜视频免费 | 国产成视频在线观看 | 国产精品美女久久久久久久久久久 | 欧美精品91爱爱 | 成人网av | 日本特黄a级高清免费大片 特黄色一级毛片 | 一区二区三区四区在线 | 国精日本亚洲欧州国产中文久久 | 在线观看亚洲专区 | 亚洲色片网站 | 国产成视频在线观看 | 一级毛片在线看 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 精品一区二区三区在线播放 | 色中文在线| 男人的天堂中文字幕 | 日韩在线成人 | 麻豆一区二区三区精品视频 | 欧美激情亚洲天堂 | 亚洲视频在线观看 | 国产91丝袜在线熟 | 久草视频在线看 | 天天天天天天操 | 草草草久久久 | 四季久久免费一区二区三区四区 | 一道本视频| 国产精品99久久久久久宅男 | 亚洲精品自在在线观看 | 四虎影院新网址 | 亚洲精品一二三 | 九九在线视频 | 午夜视频一区二区 | 国产精品区二区三区日本 | 日本黄色大片免费 | av看片网站 | 午夜视频在线免费观看 | 一级在线| 日韩精品一区二区三区在线播放 | 久久99精品久久久水蜜桃 |