當大模型遇到了傳統機器學習,是生搬硬湊? 原創
前面我們通過LLM+向量數據庫搭建了RAG,然后又將LLM和外部組件協作構建了Agent。
LLM作為AI的一個細分領域,LLM+也和AI+一樣正在重塑各行業。
今天,我們來看看LLM和傳統機器學習能碰撞出什么火花。
我們都知道,機器學習模型擅長從數據中發掘潛在模式,大語言模型擅長自然語言理解與生成。
但傳統機器學習算法依賴人的經驗去做特征工程,模型選擇,調參等。那能否借助LLM的理解和生成能力去彌補傳統機器學習的不足呢?這種融合新范式能否實現1+1>2?
先介紹一個工具Pecan,Pecan是一個基于LLM和機器學習模型實現預測的平臺,然后通過一個用戶購買可能性的示例來展示LLM和ML融合的潛在能力。
第一步,需求分析
首先會有一個LLM助手與你溝通,目的是明確需求,根據需求確定任務類型。
目前Pecan中支持二分類、多分類和線性回歸任務,Pecan會根據你的需求自動選擇分類模型還是回歸模型。
Pecan的第一個問題是:你想預測什么?
假設我是一個電商,我想預測用戶是否會再次購買我的商品。
此時,Pecan會進一步細分需求,例如,確認目標群體、預測周期以及觸發機制等。
例如,我想預測一個用戶購買商品后在下一個月是否還會再次購買,如果沒有,我將會采取一些激勵措施,例如,發放優惠券等等。
第二步,數據集成
當Pecan明確我的需求后,會要求你上傳數據,然后對數據進行初步分析。
當我上傳歷史交易數據csv文件后,Pecan會識別出列的名稱和類型,并根據需求識別交易日期和客戶ID這兩個關鍵列。
第三步,數據預處理
Pecan基于前面的需求描述和數據,生成一個notebook,里面是對數據進行預處理的SQL語言,
首先會對數據進行簡單的處理,例如,補全,清理,相關性分析等等。
然后,根據用戶購買時間,去搜索下個月的銷售記錄,以此判斷該用戶是否再次購買,如果購買了,則該數據的標簽為True,否則標簽為False。
最終將用戶特征和標簽組織成機器學習模型可識別的訓練數據。
在此過程中,如果對SQL代碼不理解,還可以讓AI幫你解釋一下。
第四步,模型訓練和預測
Pecan會訓練多個模型,然后選擇性能最好的。
這個過程中數據預處理,特征工程,模型選擇都是幾乎是通過自然語言完成的,而不需要過多的數據科學和機器學習經驗。
每一次顛覆性技術的出現,對人類社會的思想沖擊都很大,本文的目的不是介紹某個工具,而是向大家傳送一個概念,那就是AI正在重塑各行業,讓我們理解當下時代,擁抱AI,擁抱變革。
本文轉載自公眾號人工智能大講堂
