成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不做數值運算、純靠嘴炮也能機器學習?基于自然語言的全新ML范式來了

人工智能 新聞
與其用數值,我們是否能用自然語言來表示一個模型?這種基于自然語言的非數值模型又該如何做推理和訓練?

本文作者肖鎮中是德國馬克思普朗克-智能系統研究所和圖賓根大學的博士生,Robert Bamler 是圖賓根大學機器學習方向的教授,Bernhard Sch?lkopf 是馬克思普朗克-智能系統研究所的所長,劉威楊是馬普所劍橋大學聯合項目的研究員。

圖片

論文地址:https://arxiv.org/abs/2406.04344

在傳統的機器學習場景如分類和回歸問題中,給定訓練數據圖片,我們通過優化參數圖片學到一個函數模型圖片來準確描述訓練集和測試集中圖片圖片的關系。其中圖片是基于數值的函數,它的參數圖片通常是連續空間中的數值向量或矩陣,優化算法通過計算數值梯度迭代更新圖片從而達到學習的效果。

與其用數值,我們是否能用自然語言來表示一個模型?這種基于自然語言的非數值模型又該如何做推理和訓練

Verbalized Machine Learning (VML;言語化的機器學習) 回答了這些問題,并提出了一種基于自然語言的機器學習全新范式。VML 把大語言模型 (LLM) 當作自然語言空間中的通用近似函數 (universial function approximator)圖片,數據圖片和參數圖片都是自然語言空間中的字符串。在做推理時,我們可以將給定的輸入數據圖片和參數圖片提交給 LLM,LLM 的回答就是推理的答案圖片

對于任意任務和數據圖片,我們如何得到圖片?在基于數值的傳統機器學習中,我們通過計算損失函數的梯度,將現有的模型參數往損失下降的方向更新,從而得到圖片的優化函數:

圖片

其中圖片圖片分別為學習率和損失函數。

在 VML 的設定中,由于數據圖片和參數圖片都是字符串且 LLM 被當作是黑箱的推理引擎,所以我們無法通過數值計算來優化圖片。但既然我們已經將 LLM 用作自然語言空間中的通用近似函數去近似模型函數,而圖片的優化器圖片也是一個函數,我們為何不也用 LLM 去近似它?因此,言語化的圖片優化函數可寫作

圖片

其中圖片為一個數量為圖片的批次的訓練數據和模型預測結果,圖片為優化函數的參數(同為自然語言)。

圖片

圖 1:VML 的訓練算法。

圖片

圖 2:VML 中模型和優化器的自然語言模版樣例。

圖 1 顯示了 VML 的完整算法。可以看見其跟傳統機器學習算法基本相同,唯一的區別是數據和參數是在自然語言空間里的字符串, 以及模型圖片和優化器圖片都是通過 LLM 在自然語言空間中進行推理。圖 2 為回歸任務中模型圖片和優化器圖片的具體模板樣例。

跟傳統機器學習比,VML 的優勢包括:(1)用自然語言簡單的描述就可以對模型加入歸納偏置 (inductive bias);(2)由于不需要預設模型的函數族 (function family),優化器圖片可以在訓練過程中自動對模型的函數族進行選擇;(3)優化函數對模型參數的每一步更新都會提供自然語言的解釋,同時模型的描述和推理也是自然語言且可解釋的。

實驗展示

多項式回歸

如圖 3 所示,模型的初始參數圖片為線性回歸的定義。在第一步優化時,優化器說它發現圖片圖片有更大的值域,且它們似乎存在正相關性,所以它決定將模型更新為簡單的線性回歸模型。

在第二步優化時,優化器說當前模型的不良表現讓它意識到線性模型的假設過于簡單了,同時它發現圖片圖片之間存在非線性關系, 因此它決定將模型更新為二次函數。

第三步優化時,優化器的關注點從函數族選擇轉換成二次函數的參數修改。最終模型學到了真實函數很接近的結果。

圖片

圖 3: VML 在多項式回歸任務中的訓練過程記錄。

非線性二維平面分類

如圖 4 所示,模型的初始參數圖片為二維平面二分類的定義,同時用了一句話「決策邊界是個圓」加入歸納偏置。在第一步優化中,優化器說它基于提供的先驗,將模型更新為了一個圓方程。接下來的優化步驟中,優化器都在根據訓練數據調整圓方程的圓心和半徑。直到第四十一步,優化器說當前模型似乎擬合得很好了,于是停止了對模型的更新。

同時,我們也可以看見在不加歸納偏置的情況下,VML 也能學到一個基于決策樹的不錯的模型,但相比之下訓練損失的波動更大。

圖片

圖 4: VML 在非線性二維平面分類任務中的訓練過程記錄。

醫療圖像二分類

如果大模型接受多模態輸入,如圖片和文字,那 VML 也可以用在圖片任務上。這個實驗中,我們使用了 GPT-4o 和 PneumoniaMNIST 數據集,做了一個 X 光片肺炎檢測的任務。

如圖 5 所示,我們初始化了兩個模型,模型的初始參數圖片都為圖片二分類的定義, 但其中一個添加了一句話「輸入是用于肺炎檢測的 X 光圖片」的歸納偏置作為先驗。在訓練了五十步后,兩個模型都達到了 75% 左右的準確度,其中有先驗的模型準確度要稍微高一點點。

仔細觀察第五十步后的模型參數,我們可以看到加了歸納偏置的模型描述中包含了很多與肺炎相關的醫學詞匯,比如「感染」、「發炎」;而沒有加歸納偏置的模型描述中只有對肺部 X 光片的特征描述,比如「透明度」、「對稱」。

同時,這些模型所學到的描述,都是可以被具備專業知識的醫生驗證的。這種可解釋和人工檢驗的機器學習模型在以安全為重的醫療場景下十分有價值。

圖片

圖 5: VML 在 PneumoniaMNIST 圖片二分類上的訓練記錄。

結語

該文章介紹了一種基于大語言模型的機器學習新范式 Verbalized Machine Learning (VML; 言語化的機器學習),并在回歸和分類任務上展示了 VML 的有效性和可解釋性的特點。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-05-18 18:31:28

機器人自然語言編程

2021-08-17 15:47:12

機器學習自然語言神經網絡

2013-01-16 16:05:49

語義云App自然語言

2017-04-17 15:03:16

Python自然語言處理

2020-09-27 10:22:20

機器學習人工智能計算機

2017-10-19 17:05:58

深度學習自然語言

2017-05-05 15:34:49

自然語言處理

2022-02-17 09:00:00

深度學習人工智能表征學習

2023-09-20 12:13:47

開發模型

2017-04-10 16:15:55

人工智能深度學習應用

2022-03-23 15:43:26

Android客戶端架構

2017-11-02 12:08:56

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2022-03-28 09:00:00

SQL數據庫機器學習

2021-05-13 07:17:13

Snownlp自然語言處理庫

2022-02-10 08:07:41

機器學習低代碼開發

2024-04-24 11:38:46

語言模型NLP人工智能

2009-11-25 14:25:14

PHP自然語言排序

2024-04-18 09:47:08

2025-05-27 03:23:00

DSPyPydanticNLU
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产女人与拘做视频免费 | 91精品久久久久久久 | 91精品国产乱码久久久久久久 | 日韩成人精品在线观看 | 国产三级国产精品 | 91精品国产综合久久久久久丝袜 | 亚洲欧美日韩久久久 | 国产日韩久久 | 亚洲精品在线免费观看视频 | 国产在线精品一区二区三区 | 精品一区国产 | 亚洲一区视频在线 | 国产综合久久 | 一级黄色毛片免费 | 91精品国产91久久久久久不卞 | 国产成都精品91一区二区三 | 久久久精品一区二区 | 日韩手机在线看片 | 欧美在线观看一区 | 91免费看片| 国产精品夜夜夜一区二区三区尤 | 中文字幕黄色大片 | 日韩欧美一区二区三区 | av资源中文在线天堂 | 亚洲精品日韩一区二区电影 | 夜夜骑首页 | 久热精品在线 | 欧美视频精品 | 九七午夜剧场福利写真 | 欧美一区二区三区四区视频 | 国产精品日产欧美久久久久 | 精品视频在线一区 | 毛片一级片 | 日本一区二区三区在线观看 | 99久久精品免费看国产高清 | 在线色网址 | 日韩成人在线播放 | 在线第一页 | 国产三区在线观看视频 | 午夜国产 | 欧美性吧|