成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一句話解鎖100k+上下文大模型真實(shí)力,27分漲到98,GPT-4、Claude2.1適用

人工智能 新聞
一項(xiàng)極限測試卻發(fā)現(xiàn),大部分人用法都不對,沒發(fā)揮出AI應(yīng)有的實(shí)力。 AI真的能從幾十萬字中準(zhǔn)確找到關(guān)鍵事實(shí)嗎?

各家大模型紛紛卷起上下文窗口,Llama-1時標(biāo)配還是2k,現(xiàn)在不超過100k的已經(jīng)不好意思出門了。

然鵝一項(xiàng)極限測試卻發(fā)現(xiàn),大部分人用法都不對,沒發(fā)揮出AI應(yīng)有的實(shí)力

AI真的能從幾十萬字中準(zhǔn)確找到關(guān)鍵事實(shí)嗎?顏色越紅代表AI犯的錯越多。

圖片

圖片

默認(rèn)情況下,GPT-4-128k和最新發(fā)布的Claude2.1-200k成績都不太理想。

但Claude團(tuán)隊(duì)了解情況后,給出超簡單解決辦法,增加一句話,直接把成績從27%提升到98%。

圖片

只不過這句話不是加在用戶提問上的,而是讓AI在回復(fù)的開頭先說:

“Here is the most relevant sentence in the context:”

(這就是上下文中最相關(guān)的句子:)

讓大模型大海撈針

為了做這項(xiàng)測試,作者Greg Kamradt自掏腰包花費(fèi)了至少150美元。

好在測試Claude2.1時,Anthropic伸出援手給他提供了免費(fèi)額度,不然還得多花1016美元。

其實(shí)測試方法也不復(fù)雜,都是選用YC創(chuàng)始人Paul Graham的218篇博客文章當(dāng)做測試數(shù)據(jù)。

在文檔中的不同位置添加特定語句:在舊金山最好的事情,就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。

請GPT-4和Claude2.1僅僅使用所提供的上下文來回答問題,在不同上下文長度和添加在不同位置的文檔中反復(fù)測試。

最后使用Langchain Evals庫來評估結(jié)果。

作者把這套測試命名為“干草堆里找針/大海撈針”,并把代碼開源在GitHub上,已獲得200+星,并透露已經(jīng)有公司贊助了對下一個大模型的測試。

圖片

AI公司自己找到解決辦法

幾周后,Claude背后公司Anthropic仔細(xì)分析后卻發(fā)現(xiàn),AI只是不愿意回答基于文檔中單個句子的問題,特別是這個句子是后來插入的,和整篇文章關(guān)系不大的時候。

也就是說,AI判斷這句話和文章主題無關(guān),就偷懶不去一句一句找了。

這時就需要用點(diǎn)手段晃過AI,要求Claude在回答開頭添加那句“Here is the most relevant sentence in the context:”就能解決。

使用這個辦法,在尋找不是后來人為添加、本來就在原文章中的句子時,也能提高Claude的表現(xiàn)。

Anthropic公司表示將來會不斷的繼續(xù)訓(xùn)練Claude,讓它能更適應(yīng)此類任務(wù)。

在API調(diào)用時要求AI以指定開頭回答,還有別的妙用。

創(chuàng)業(yè)者M(jìn)att Shumer看過這個方案后補(bǔ)充了幾個小技巧:

如果想讓AI輸出純JSON格式,提示詞的最后以“{”結(jié)尾。同理,如果想讓AI列出羅馬數(shù)字,提示詞以“I:”結(jié)尾就行。

圖片

不過事情還沒完……

國內(nèi)大模型公司也注意到了這項(xiàng)測試,開始嘗試自家大模型能不能通過。

同樣擁有超長上下文的月之暗面Kimi大模型團(tuán)隊(duì)也測出了問題,但給出了不同的解決方案,也取得了很好的成績。

圖片

這樣一來,修改用戶提問Prompt,又比要求AI在自己的回答添加一句更容易做到,特別是在不是調(diào)用API,而是直接使用聊天機(jī)器人產(chǎn)品的情況下。

月之暗面還用自己的新方法幫GPT-4和Claude2.1測試了一下,結(jié)果GPT-4改善明顯,Claude2.1只是稍微改善。

圖片

看來這個實(shí)驗(yàn)本身有一定局限性,Claude也是有自己的特殊性,可能與他們自己的對齊方式Constituional AI有關(guān),需要用Anthropic自己提供的辦法更好。

后來,月之暗面的工程師還搞了更多輪實(shí)驗(yàn),其中一個居然是……

圖片

壞了,我成測試數(shù)據(jù)了。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-11-24 17:04:02

GPT-4模型

2015-08-03 10:21:04

設(shè)計(jì)模式表達(dá)

2020-11-27 09:57:11

Python代碼PyPy

2023-09-05 23:34:52

Kubernetes云原生

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2023-09-06 15:23:30

Docker容器K8S

2023-08-25 17:10:14

LLM人工智能

2021-11-29 09:45:32

模型人工智能深度學(xué)習(xí)

2010-03-29 11:55:12

無線上網(wǎng)報(bào)錯

2023-05-08 15:44:23

3D數(shù)字人

2024-02-08 09:33:37

蘋果AI

2022-12-12 13:45:46

模型修圖

2025-01-02 07:00:00

2024-12-17 09:38:00

2019-09-05 10:13:28

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2020-12-16 10:43:44

PythonPyPy代碼

2014-05-07 10:47:51

移動金融互聯(lián)網(wǎng)金融GMIC

2023-08-28 00:53:03

AI3D

2019-08-15 11:42:56

程序員電腦軟件
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品视频入口 | 欧美极品视频在线观看 | 一区在线视频 | 国产欧美视频一区二区 | 在线视频一区二区三区 | 一级免费毛片 | av一区二区三区四区 | 韩日在线观看视频 | 欧美精品在线免费观看 | 亚洲福利在线观看 | 欧美日韩午夜精品 | 无码国模国产在线观看 | 久久精品国产一区 | 亚洲精品国产精品国自产在线 | 欧美福利影院 | 日韩精品在线免费观看视频 | 日韩精品一区二区三区四区视频 | 国内在线视频 | 国精久久| 亚洲高清视频在线观看 | 亚洲精品二区 | 婷婷在线免费 | 日本色综合 | 国产精品久久久久9999鸭 | 在线免费观看成人 | 国产欧美在线播放 | av大片| 91国产在线视频在线 | 亚洲成人一区二区在线 | 久久久久久av | 成人黄页在线观看 | 精品视频在线播放 | 自拍视频在线观看 | 精品国产乱码久久久久久蜜柚 | 亚洲一区av在线 | 亚洲精品久久久久久国产精华液 | 色婷婷av99xx | 久久免费精品 | 精品视频一区二区三区在线观看 | 99精品99| 一区二区三区在线免费看 |