成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="m2g22"></rt>

<dl id="m2g22"></dl>

<rt id="m2g22"></rt>

<rt id="m2g22"><delect id="m2g22"></delect></rt>

<button id="m2g22"><bdo id="m2g22"></bdo></button>

<button id="m2g22"><source id="m2g22"></source></button><abbr id="m2g22"></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

四行代碼讓大模型上下文暴增3倍，羊駝Mistral都適用

2024-01-08 12:47:02

開發(fā) 前端

近日，來自得克薩斯農(nóng)工大學(xué)等機(jī)構(gòu)的華人學(xué)者們發(fā)布了全新的大模型窗口擴(kuò)展方法SelfExtended（簡(jiǎn)稱SE）。在Mistral上，研究者在24k長(zhǎng)度的文本中隨機(jī)插入5位數(shù)字讓模型搜索，結(jié)果經(jīng)SE處理后，呈現(xiàn)出了全綠（通過）的測(cè)試結(jié)果。

無需微調(diào)，只要四行代碼就能讓大模型窗口長(zhǎng)度暴增，最高可增加3倍！

而且是“即插即用”，理論上可以適配任意大模型，目前已在Mistral和Llama2上試驗(yàn)成功。

有了這項(xiàng)技術(shù)，大模型（LargeLM）就能搖身一變，成為L(zhǎng)ongLM。

近日，來自得克薩斯農(nóng)工大學(xué)等機(jī)構(gòu)的華人學(xué)者們發(fā)布了全新的大模型窗口擴(kuò)展方法SelfExtended（簡(jiǎn)稱SE）。

在Mistral上，研究者在24k長(zhǎng)度的文本中隨機(jī)插入5位數(shù)字讓模型搜索，結(jié)果經(jīng)SE處理后，呈現(xiàn)出了全綠（通過）的測(cè)試結(jié)果。

而未經(jīng)處理的版本，在6k長(zhǎng)度時(shí)就已經(jīng)開始“見紅”了。

圖片

GitHub Copilot主創(chuàng)Alex Graveley也激動(dòng)地宣布，在Llama2上進(jìn)行的實(shí)驗(yàn)同樣取得了成功。

圖片

在網(wǎng)友的進(jìn)一步詢問之下，Alex解釋了推文中“work”的具體含義：原先在4k長(zhǎng)度時(shí)就會(huì)出現(xiàn)的噪聲，現(xiàn)在已經(jīng)消失了。

圖片

而對(duì)于SE窗口長(zhǎng)度的極限，一位根據(jù)論文復(fù)現(xiàn)SE代碼的大佬表示，理論上（只要算力足夠）可以達(dá)到無限長(zhǎng)。

圖片

那么，SE具體能達(dá)到什么樣的效果呢？

長(zhǎng)文本能力顯著增強(qiáng)

在窗口長(zhǎng)度從4096增長(zhǎng)到16384的過程中，Llama 2的困惑度從一開始變飆升了兩個(gè)數(shù)量級(jí)。

但使用SE后，文本長(zhǎng)度變成了原來的4倍，困惑度卻只增加了0.4。

而在Mistral上，SE比Mistral自身采用的滑動(dòng)窗口（SWA）機(jī)制帶來了更低的困惑度。

圖片

△左下圖使用對(duì)數(shù)坐標(biāo)

在專為長(zhǎng)文本模型設(shè)計(jì)的LongBench數(shù)據(jù)集中，SE處理后的模型在單/多文檔問答、總結(jié)、少樣本學(xué)習(xí)、代碼等任務(wù)中，評(píng)分均相比起原始版本有所提升。

特別是在一個(gè)名為SOLAR的模型上，處理后的模型在16k長(zhǎng)度下的表現(xiàn)比原始版本在4k長(zhǎng)度下的表現(xiàn)還要優(yōu)異。

SOLAR由兩個(gè)羊駝掐頭去尾拼接而成，這種拼接的方式，使得其注意力層結(jié)構(gòu)與其他基于Transformer的模型形成了一定差異。

同時(shí)，在GSM等由考試題組成的閉域問答任務(wù)中，SE優(yōu)化后的模型也都相比原始版本取得了更高的平均成績(jī)，在Mistral上稍遜于其自身的SWA方法。

圖片

而長(zhǎng)文本能力的增強(qiáng)，并沒有帶來模型在短文本上的能力下降。

在HuggingFace的OpenLLM基準(zhǔn)下，SE版Llama2的測(cè)評(píng)成績(jī)相比原版均為發(fā)生顯著降低。

圖片

目前，SE的開箱即用版支持Phi、Llama和Mistral三種模型，在這三種模型上只需4行代碼就能進(jìn)行窗口擴(kuò)增。

對(duì)于其他模型，則需要對(duì)代碼進(jìn)行一定修改。

圖片

那么，SE是如何給模型增加窗口長(zhǎng)度的呢？

兩種注意力機(jī)制共同作用

研究者認(rèn)為，長(zhǎng)文本能力是大模型本身就具有的，但需要通過一定方法激發(fā)才能實(shí)現(xiàn)。

其中最主要的問題是，大模型在處理長(zhǎng)文本時(shí)，會(huì)遇到相對(duì)位置編碼超出訓(xùn)練時(shí)所見范圍的情況。

針對(duì)這一情況，作者采用了FLOOR注意力機(jī)制作為解決策略。

FLOOR對(duì)輸入的文本序列進(jìn)行分組，然后用組數(shù)對(duì)某一token的絕對(duì)位置做取整除，就可以長(zhǎng)距離將映射到較短的范圍。

然后，對(duì)這些映射值進(jìn)行注意力運(yùn)算，就解決了位置編碼超限的問題，實(shí)現(xiàn)了長(zhǎng)文本的處理。

圖片

而在處理中短長(zhǎng)度文本時(shí)，仍然使用模型原有的注意力機(jī)制，從而確保了模型不會(huì)“顧此失彼”，避免因長(zhǎng)文本能力的增長(zhǎng)導(dǎo)致短文本能力損失。

此外，在Mistral上復(fù)現(xiàn)SE的作者還坦言，目前該模型并不完美，可能存在計(jì)算量暴增的問題。

圖片

同時(shí)，SE的原作者也說，目前SE方法的確還沒有做過效率方面的優(yōu)化，未來計(jì)劃通過引入FlashAttention機(jī)制等策略來解決這一問題。

論文地址：https://arxiv.org/abs/2401.01325

責(zé)任編輯：武曉燕來源：量子位

代碼模型 Mistral

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：免费一区二区三区 | 国产成人艳妇aa视频在线 | 欧美日韩国产免费 | 欧美福利久久 | 免费看一级毛片 | 中文字幕精品一区二区三区在线 | 久久久久亚洲精品 | 一区二区三区国产精品 | 国产精品呻吟久久av凹凸 | 久久久99国产精品免费 | 日韩欧美综合在线视频 | 久久久国产一区 | 91av亚洲| 日韩免费1区二区电影 | 97超级碰碰 | 成人免费视频网站 | 国产精品久久久久久久久污网站 | 午夜视频免费在线观看 | 国产伦精品一区二区三区精品视频 | 91资源在线 | www.一级毛片| 免费在线观看成人 | 精精国产xxxx视频在线野外 | 亚洲精品久久久久中文字幕二区 | 亚洲精品视频在线播放 | 自拍偷拍亚洲视频 | 欧美成人在线免费 | 中文字幕一级 | 99久久婷婷| 黄色一级大片在线观看 | 欧美一区二区三区在线播放 | 中文字幕黄色大片 | 干出白浆视频 | 国产精品欧美一区二区三区不卡 | 91视频在线看 | 国产精品久久久久久久免费大片 | 国产电影一区二区在线观看 | 国产大片一区 | 欧美成人一区二区三区片免费 | 成年人网站免费 | 亚洲精品一区二区 |

<rt id="e2ea4"><delect id="e2ea4"></delect></rt>

<li id="e2ea4"></li>

<rt id="e2ea4"></rt>

<rt id="e2ea4"><acronym id="e2ea4"></acronym></rt>