智能體DS-Agent基于案例推理,讓GPT-4數據科學任務接近100%
在大數據時代,數據科學覆蓋了從數據中挖掘見解的全周期,包括數據收集、處理、建模、預測等關鍵環節。鑒于數據科學項目的復雜本質以及對人類專家知識的深度依賴,自動化在改變數據科學范式方面擁有極大的發展空間。隨著生成式預訓練語言模型的興起,讓大語言模型智能體處理復雜任務變得越來越重要。
傳統的數據處理和分析大多依賴專業的數據科學家,費時費力。如果能夠讓大語言模型智能體扮演數據科學家的角色,那么除了能夠為我們提供更高效的洞察和分析,還可以開啟前所未有的工業模式和研究范式。
這樣一來只要給定數據任務需求,專注于數據科學的智能體就可以自主地處理海量數據,發現隱藏在數據背后的模式和趨勢。更廣闊地,可以提供清晰模型構建的策略和代碼,調用機器進行模型部署推理,最后利用數據可視化,使復雜的數據關系一目了然。
近期,吉林大學、上海交通大學和倫敦大學學院汪軍團隊合作提出了 DS-Agent,這一智能體的角色定位是一名數據科學家,其目標是在自動化數據科學中處理復雜的機器學習建模任務。技術層面上,團隊采用了一種經典的人工智能策略 —— 基于案例的推理(Case-Based Reasoning,CBR),賦予了智能體 “參考” 他山之石的能力,使其能夠利用以往解決類似問題的經驗來解決新問題。
- 論文鏈接:https://arxiv.org/pdf/2402.17453.pdf
- 代碼鏈接:https://github.com/guosyjlu/DS-Agent
- 論文題目:DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning
研究背景
在自動化數據科學這種開放決策場景中,目前的大模型智能體(例如 AutoGPT、LangChain、ResearchAgent 等)即使搭配 GPT-4 也難以保證較高的成功率。其主要挑戰在于大模型智能體無法穩定地生成可靠的機器學習解決方案,并且還面臨著幻覺輸出的問題。當然,針對數據科學這一特定場景對大模型進行微調似乎是一種可行的策略,但這同時引入了兩個新問題:(1)生成有效的反饋信號需要基于機器學習模型訓練,這一過程需要耗費大量時間才能積累足夠的微調數據。(2)微調過程中需要執行反向傳播算法,這不僅增加了計算開銷,而且大幅度提升了對計算資源的需求。
在這種情況下,團隊決定使用 Kaggle 這一關鍵資源。作為世界上最大的數據科學競賽平臺,它擁有由經驗豐富的數據科學家社區貢獻的大量技術報告和代碼。為了使大模型智能體能夠高效地利用這些專家知識,團隊采用了一個經典的人工智能問題解決范式 —— 基于案例的推理。
基于案例的推理的核心工作機制是維護一個案例庫來不斷存儲過往經驗。當出現一個新問題時,CBR 會在案例庫中檢索相似的過往案例,并嘗試復用這些案例的解決方案來解決新問題。隨后,CBR 會評估解決方案的有效性并根據反饋修訂解決方案,這一過程中的成功的解決方案會被增加到案例庫中以供未來復用。
在此基礎上,團隊提出 DS-Agent,利用 CBR 使大模型智能體能夠分析、提取和重用 Kaggle 上的人類專家見解,并根據實際的執行反饋迭代修訂解決方案,從而實現面向數據科學任務的持續性能提升。
框架細節
總體上,DS-Agent 實現了兩種模式,以適應不同的應用階段和資源要求。
- 標準模式(開發階段):DS-Agent 采用 CBR 構建自動化迭代流程,這模擬了數據科學家在搭建和調整機器學習模型時的連續探索過程,通過不斷的實驗和優化以求達到最佳解決方案。
- 低資源模式(部署階段):DS-Agent 復用開發階段積累的成功案例來生成代碼,這大大減少了對計算資源和基座模型推理能力的需求,使得開源大模型解決自動化數據科學任務成為可能。
開發階段中,給定一個新的數據科學任務,DS-Agent 首先從 Kaggle 中檢索出與任務相關的人類專家知識,并在此基礎上構建初步的解決方案。緊接著,它進入一個迭代循環,通過編程和調試來訓練機器學習模型,以獲得在測試集上的性能指標。這些反饋指標成為評價和改進解決方案的關鍵依據。DS-Agent 會根據這些指標對模型設計進行必要的修改,以尋求最優的模型設計。在這個過程中,那些最優的機器學習解決方案被保存在案例庫中,為將來遇到類似任務時提供了參考。
部署階段下,DS-Agent 的工作模式變得更加直接和高效。在這個階段,它直接檢索并復用經過驗證的成功案例來生成代碼,而無需再次從頭開始探索。這樣不僅降低了對計算資源的需求,使得 DS-Agent 能夠快速響應用戶的需求;還顯著降低了對大模型基座能力的要求,以一種低資源的方式提供高質量的機器學習模型。
實驗設置
我們收集了 30 種不同的數據科學任務,覆蓋了三種主要數據模態(文本、表格和時間序列)以及兩大機器學習核心問題(分類和回歸),并設計了不同的評價指標來保證任務的多樣性。
開發階段實驗結果
在開發階段中,DS-Agent 使用 GPT-4 首次在數據科學任務中實現了 100% 的成功率;相比之下,DS-Agent 即使使用 GPT-3.5 也展現出了比最強基線 ResearchAgent 使用 GPT-4 時還要更高的成功率。
此外,DS-Agent 使用 GPT-4 和 GPT-3.5 時,分別在測試集評價指標中取得了第一和第二的成績,顯著優于最強基線 ResearchAgent。
部署階段實驗結果
部署階段中,DS-Agent 使用 GPT-4 時,取得了首次接近 100% 的一次成功率,同時將開源模型 Mixtral-8x7b-Instruct 的一次成功率從 6.11% 躍升到了 31.11%。
在測試集指標評估中,DS-Agent 使用 GPT-4 和 GPT-3 時,取得了第一和第二的成績;然而遺憾的是,開源大模型 Mixtral-8x7b-Instruct 在 DS-Agent 的加持下仍然沒有超越 GPT-3.5。
最后,我們對 DS-Agent 在兩種不同模式下的 API 調用成本進行了分析。通過對比,我們發現在開發階段,DS-Agent 分別對 GPT-4 和 GPT-3.5 進行調用時,單次成本分別是 1.60 美元和 0.06 美元。然而,在部署階段,成本得到了顯著降低:DS-Agent 單次使用 GPT-4 的成本下降至僅需 13 美分,而單次使用 GPT-3.5 的成本更是低至不足 1 美分。這意味著在部署階段,與開發階段相比,我們實現了超過 90% 的成本節省。
借助 DS-Agent,即便你不懂編程、沒學過機器學習,也能輕松應對各種復雜的數據分析挑戰,瞬間獲得深入的業務洞察,進行有效的決策支持,優化策略,并預測未來趨勢,從而使企業數據部門的工作效率有望得到大幅提升。試想一下,營銷人員只需用自然語言描述需求,智能體就能快速生成用戶畫像和營銷策略分析;金融分析師告別手動建模的繁瑣,轉而與智能體探討市場趨勢…… 這一切可能很快就會成為現實。當然,自動化數據科學還處于起步階段,離規模化應用尚需時日。但 DS-Agent 的出現無疑為我們展現了一幅令人期待的未來圖景。隨著人工智能的不斷發展,冗雜的數據分析工作有朝一日或將被 AI 接管,而人類則可以把更多時間放在洞見思考和創新決策之上。