阿里推出AI數據科學家，全流程自動化，科研小白也能用

作者：量子位 2024-08-07 14:57:00

人工智能新聞

Data Science Assistant（以下稱DS Assistant）是基于Modelscope-Agent框架開發的數據科學助手。

基于開源Agent框架，可自動解決復雜數據科學問題的Agent來了！

具體來說，Data Science Assistant（以下稱DS Assistant）是基于Modelscope-Agent框架開發的數據科學助手。

有了它，我們只需給需求，這個助手就能自己跑完探索性數據分析（EDA）、數據預處理、特征工程、模型訓練，模型評估等步驟。

當然，除了本文將重點提到的DS Assistant，它背后的Modelscope-Agent框架也值得說道。

這個框架由阿里開源，主要特點包括：

可通過vllm、ollama等工具接入各主流開源模型，也可以直接調用模型API；
提供RAG組件支持開發者快速接入知識庫；
工具生態豐富，支持大量的Modelscope社區模型作為工具，也支持直接調用langchain的工具，還接入了各類常用的工具，如web-browsing、文生圖、code-interpreter等；

更妙的是，Modelscope-Agent框架允許開發者無需編碼即可交互式地創建Agent助理。

這不，啪的一下，咱們的數據科學助手“誕生”了~

復雜數據科學任務自動化

實現復雜數據科學任務自動化一直存在挑戰。

傳統的ReAct（Reasoning and Action）框架對于簡單的任務比較有效，但是有以下缺點：

每次工具調用都需要一個LLM調用。
LLM一次僅計劃1個子問題。這可能會導致任務的軌跡更加不可控，因為它不會被迫“推理”整個任務。

而DS Assistant使用了plan-and-excute框架，這是一種新興的Agent框架，通過明確計劃和執行步驟高效完成復雜任務。

langchain官網對Plan-and-execute Agent的描述：https://blog.langchain.dev/planning-agents/

具體而言，其工作流程包括以下幾個步驟：

1、任務計劃：Agent接收用戶輸入的任務描述，進行語義理解，將任務分解為多個可執行子任務。

2、子任務調度：基于任務之間的依賴關系和優先級，智能調度子任務的執行順序。

3、任務執行：每個子任務分配給特定的模塊執行。

4、結果整合：匯總各子任務的結果，形成最終輸出，并反饋給用戶。

基于上述框架，咱們接著看整個系統架構，DS Assistant整套系統有4個主要模塊。

先說右側的DS Assistant，它作為整個系統的大腦，負責調度整個系統的運轉。

而Plan模塊負責根據用戶的需求生成一系列Task列表，并對Task先后順序進行拓撲排序。

在這一階段，DS Assistant根據用戶輸入的復雜數據科學問題，自動將其分解為多個子任務。

這些子任務根據依賴關系和優先級被組織和調度，確保執行順序符合邏輯且高效。

接下來到了Execution模塊，負責任務的具體執行，保存任務執行結果。

在這里，每個子任務被具體化為可執行的操作，如數據預處理、模型訓練等。

最后是Memory management模塊，負責記錄任務中間執行結果，代碼，數據詳情等信息。

在所有Task執行完成后，DS Assistant會將中間數據的執行情況 ( 包括每個task生成的代碼和結果，消耗token數，任務時間 ) 保存為文件。

案例實戰

下面，我們以一個具體的例子來了解DS Assistant的執行過程。

我們選用Kaggle上的一個比賽任務ICR - Identifying Age-Related Conditions作為示例：

該任務是一項機器學習任務，主要目的是通過分析各種數據（如醫療記錄、基因數據、生活方式數據等），識別與年齡相關的健康狀況。

最終結果將用來幫助醫療專業人員及早發現老年人群中常見的健康問題，并提供個性化的預防和治療方案。

廢話不多說，我們這就開始~

首先，對于選用的LLM，我們需要配置一下。

我們引入MetaGPT的Data Science工具和Tool Recommender，可以根據任務類型向DS Assistant推薦合適的數據科學工具。

接著，我們需要將任務的具體要求傳給DS Assistant。需要注意的是，在要求中需向DS Assistant指明數據文件的路徑：

from modelscope_agent.agents.data_science_assistant import DataScienceAssistant
from modelscope_agent.tools.metagpt_tools.tool_recommend import TypeMatchToolRecommender

llm_config = {
    'model': 'qwen2-72b-instruct',
    'model_server': 'dashscope',
}
tool_recommender = TypeMatchToolRecommender(tools=["<all>"])
ds_assistant = DataScienceAssistant(llm=llm_config, tool_recommender=tool_recommender)
ds_assistant.run(
    "This is a medical dataset with over fifty anonymized health characteristics linked to three age-related conditions. Your goal is to predict whether a subject has or has not been diagnosed with one of these conditions. The target column is Class. Perform data analysis, data preprocessing, feature engineering, and modeling to predict the target. Report F1 Score on the eval data. Train data path: ‘./dataset/07_icr-identify-age-related-conditions/split_train.csv', eval data path: ‘./dataset/07_icr-identify-age-related-conditions/split_eval.csv' ."
)

在Plan階段，DS Assistant會根據用戶需求生成任務列表，將整個數據處理流程進行分解，接著對任務列表進行按順序處理。

可以看到，DS Assistant生成了5個任務，分別是數據探索，數據預處理，特征工程，模型訓練和預測。

然后這5個任務進入了Execute階段，下面咱們挨個看一下。

Task 1: 數據探索

可以看到生成的代碼在執行時報了如下錯誤，原因是沒有引入numpy包。

DS Assistant根據報錯進行了反思，并重新生成代碼并執行，成功輸出數據探索的結果。

最后，code judge會對代碼進行質檢，確保本次生成代碼邏輯正確。

Task 2: 數據預處理

在數據預處理階段，DS Assistant分別對數值型數據和類別型數據進行了合適的缺失值處理，并清除了ID列。

Task 3：特征工程

在修復了兩次錯誤后，DS Assistant對數據進行了特征工程的處理，對類別型變量進行編碼。

同時對之前定義的categorical_columns變量進行了更新，去除了ID列。

Task 4：模型訓練

DS Assistant主動安裝了合適的依賴，并選擇了多個模型（隨機森林，梯度提升，邏輯回歸）進行訓練，并選擇了結果最好的模型。

Task 5：模型驗證

DS Assistant選擇了訓練集中F1分數最高的模型對驗證集進行測試，并計算了這個模型在驗證集上的F1分數，成功地完成了任務。

執行完以上任務后，DS Assistant支持將運行結果保存為Jupyter Notebook類型的文件，并記錄運行的中間過程。

△Jupyter Notebok

△中間過程記錄JSON文件

實驗效果

我們使用ML-Benchmark作為測試集（指路論文“Data Interpreter: An LLM Agent For Data Science”），分別從Normalized Performance Score (NPS) ，total time，total token三個維度對DS Assistant效果進行評測。

其中NPS是一種將不同任務或模型的性能指標標準化的方法，使得不同指標之間可以進行比較。

它的計算通常涉及以下步驟：

步驟1：確定指標優化方向，判斷性能指標是“越大越好”還是“越小越好”。

步驟2：規范化計算。如果指標是“越大越好”（如準確率、F1分數、AUC），NPS等于原始值；如果指標是“越小越好”（如損失值），則需要將原始值映射到接近1的較高NPS值。

規范化后的性能得分范圍通常是0到1，其中1表示最優性能，0表示最差性能。

實驗任務詳情和結果如下( 綠色代表當前任務下最優指標 )：

可以看到，在部分復雜的數據科學任務上，DS Assistant在規范化性能得分(NPS)，任務時間，消耗token數的指標上取得超過開源SOTA的效果。（其中開源SOTA效果指MetaGPT實測值）

完整實驗日志：https://modelscope-agent.oss-cn-hangzhou.aliyuncs.com/resources/DS_Assistant_results.zip

總結

對不同的人來說，DS assistant有不同作用：

不熟悉數據分析流程但是又有需要的同學，可以快速根據生成的任務以及處理過程，了解處理數據的思路，以及技術點。
對于了解數據分析流程的同學，可以通過詳細的描述，來影響數據處理的方法，方便做不同的實驗參照比較。
對于所有人，可以自動化的快速實現對于當前手上文件的更深層次的理解，僅需提問即可。

下一步，DS assistant將從三個方向展開優化：

1、進一步提高任務執行成功率：

a）對于Code Agent來說，傳入信息量過大（報錯信息，中間數據信息，已生成代碼信息）會導致模型生成代碼正確率下降，可以在未來考慮使用LLM進行總結，對信息進行篩選。

b）同一個Task可進行進一步的分解，以降低對LLM推理能力的要求。

2、對話交互式，可以將任務和任務的執行展示分開，通過對話的方式推進任務，并影響執行結果。

3、支持批處理相同任務多批文件的場景。

更多細節可進一步查看Modelscope-Agent官方倉庫中Data Sciecne Assistant示例。

https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

責任編輯：張燕妮來源：量子位

數據訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看