成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%

人工智能 新聞
在MedQA數據集(美國醫師執照考試題)上,Medprompt讓GPT-4的準確率首次超過90%,超越BioGPT和Med-PaLM等一眾微調方法。

微軟最新研究再次證明了提示工程的威力——

無需額外微調,無需專家策劃,僅憑提示,GPT-4就能化身“專家”。

使用他們提出的最新提示策略Medprompt,在醫療專業領域,GPT-4在MultiMed QA九個測試集中取得最優結果。

在MedQA數據集(美國醫師執照考試題)上,Medprompt讓GPT-4的準確率首次超過90%超越BioGPT和Med-PaLM等一眾微調方法。

圖片

研究人員還表示Medprompt方法是通用的,不僅適用于醫學,還可以推廣到電氣工程、機器學習、法律等專業中。

這項研究在X(原Twitter)一經分享,就引發眾多網友關注。

圖片

沃頓商學院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有轉發分享。

Carlos E. Perez直呼“出色的提示策略可以甩微調一大截”:

圖片

有網友表示早就有這種預感,現在能看到結果出來,真的是“so cool”:

圖片

還有網友表示這真的很“激進”:

GPT-4是一項能改變行業的技術,而我們還遠沒有觸及提示的極限,也未達到微調極限。

圖片

組合提示策略,“變身”專家

Medprompt是多種提示策略的組合體,包含三大法寶:

  • 動態少樣本選擇(Dynamic few-shot selection)
  • 自生成思維鏈(Self-generated chain of thought)
  • 選項洗牌集成(Choice shuffling ensemble)

下面我們來一一介紹。

圖片

動態少樣本選擇

少樣本學習是讓模型快速學習上下文的一種有效的方法。簡單來說,就是輸入一些示例,讓模型快速適應特定領域,并學習遵循任務的格式。

這種用于特定任務提示的少樣本示例通常是固定的,所以對示例的代表性和廣泛性有較高的要求。

之前一種方法是讓領域專家手動制作范例,但即便如此,也不能保證專家策劃的固定的少樣本示例在每個任務中都有代表性。

因此,微軟研究人員提出了動態少樣本示例的方法。

想法是,任務訓練集可以作為少樣本示例的來源,如果訓練集足夠大,那就可以為不同的任務輸入選擇不同的少樣本示例。

具體來說,研究人員先利用text-embedding-ada-002模型為每個訓練樣本和測試樣本生成向量表示。然后,對于每個測試樣本,基于向量相似度,從訓練樣本中挑選出最相似的k個樣本。

與微調方法相比,動態少樣本選擇利用了訓練數據,但不需要對模型參數進行大量更新。

自生成思維鏈

思維鏈(CoT)方法就是讓模型一步一步思考,生成一系列中間推理步驟。

之前一種方法也是依賴專家手動編寫少量的帶有提示思維鏈的示例。

圖片

在這里,研究人員發現,可以簡單地要求GPT-4使用以下提示為訓練示例生成思維鏈:

圖片

但研究人員也指出這種自動生成的思維鏈可能包含錯誤的推理步驟,于是設置了一個驗證標簽作為過濾器,可以有效減少錯誤。

與在Med-PaLM 2模型中專家手工制作的思維鏈示例相比,GPT-4生成的思維鏈基本原理更長,而且分步推理邏輯更細粒度。

選項洗牌集成

除此之外,GPT-4在做選擇題時,可能會存在一種偏見,就是不管選項內容是什么,它會偏向總是選擇A,或者總是選擇B,這就是位置偏差。

為了減少這個問題,研究人員選擇將原來的選項順序打亂重排。比如原先選項是ABCD,可以變成BCDA、CDAB。

然后讓GPT-4做多輪預測,每輪使用選項的一個不同排列順序。如此一來“迫使”GPT-4考慮選項的內容。

最后對多輪預測結果做個投票,選擇最一致、正確的選項。

將以上幾種提示策略組合在一起就是Medprompt,下面來看測試結果。

多項測試最優

在測試中,研究人員采用了MultiMed QA評估基準。

圖片

使用Medprompt提示策略的GPT-4,在MultiMedQA的九個基準數據集中均取得最高分,優于Flan-PaLM 540B、Med-PaLM 2。

此外研究人員還討論了Medprompt策略在“Eyes-Off”數據上的表現,也就是在訓練或優化過程中模型未曾見過的數據中的表現,用于檢驗模型是否過擬合訓練數據。

圖片

結果GPT-4結合Medprompt策略在多個醫學基準數據集上表現出色,平均準確率達到了91.3%。

研究人員還在MedQA數據集上進行了消融實驗,探索了三個組件對于整體性能的相對貢獻。

圖片

其中自動生成思維鏈步驟對性能提升的貢獻最大。

圖片

而且GPT-4自動生成的思維鏈比Med-PaLM 2中專家策劃的得分更高:

圖片

最后,研究人員還探索了Medprompt的跨域泛化能力,取用了MMLU基準中的六個不同的數據集,涵蓋了電氣工程、機器學習、哲學、專業會計、專業法律和專業心理學的問題。

還添加了另外兩個包含NCLEX(美國護士執照考試)問題的數據集。

結果顯示,Medprompt在這些數據集上的效果與在MultiMedQA醫學數據集上的提升幅度相近,平均準確率提高了7.3%。

圖片

論文鏈接:https://arxiv.org/pdf/2311.16452.pdf

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2023-11-20 21:56:04

AI推理

2023-06-08 11:27:10

模型AI

2024-02-26 00:50:00

數據AI

2023-05-29 09:29:52

GPT-4語言模型

2023-04-10 09:23:36

模型AI

2023-09-19 09:20:16

2023-12-26 08:17:23

微軟GPT-4

2025-01-21 08:00:00

2025-05-26 08:33:00

2023-09-06 16:44:03

2023-03-20 10:19:25

ChatGPT數學

2023-09-19 14:56:00

模型訓練

2024-01-03 13:37:00

模型數據

2024-07-02 13:25:22

2023-08-17 13:30:28

AI測試

2023-02-03 16:31:02

模型

2024-06-18 12:54:39

2025-05-06 15:32:23

模型AI測試
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产高清精品一区二区三区 | 视频三区 | 精品国产免费人成在线观看 | 精品国模一区二区三区欧美 | 日本久久精品视频 | 国产在线一区二区三区 | 日韩中文欧美 | 毛片一区 | 免费视频99 | 国产午夜精品视频 | 国产精品久久久久久久久 | 欧美一区二区三区视频在线观看 | 亚洲精品乱码 | 中文字幕成人 | 日韩免费高清视频 | 国产精品久久久久久久一区探花 | 91免费视频 | 亚洲精品一区二区三区在线 | 日韩电影免费在线观看中文字幕 | 欧美中文字幕一区 | 精品久久成人 | av网站免费观看 | 天天操一操 | 国产午夜精品一区二区三区四区 | 国产激情一区二区三区 | 99精品视频在线观看免费播放 | 久久综合av | av在线一区二区三区 | 欧美精品一区二区三区在线播放 | 精品一区二区在线观看 | 国产日韩精品在线 | 国产日韩91 | 精品国产乱码久久久久久牛牛 | 中国美女一级黄色片 | 国产成人精品免高潮在线观看 | 91av在线不卡 | 国产精品久久久久久久午夜 | 久久男人天堂 | 97福利在线 | 亚洲综合久久久 | 天天干天天操 |