成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

陳丹琦等人組織的COLM獎(jiǎng)項(xiàng)公布:被ICLR拒稿的Mamba入選杰出論文

人工智能 新聞
會(huì)議組織者都是 NLP 頭部科學(xué)家,在語(yǔ)言建模方面有著相當(dāng)?shù)某晒?/div>

隨著 AI 領(lǐng)域的快速發(fā)展,大模型逐漸成為研究的核心,為了更好地探索這一領(lǐng)域,2023 年,一批知名的青年學(xué)者組織了一個(gè)名為 COLM(Conference on Language Modeling)的新會(huì)議。

該會(huì)議的組織者們都是 NLP 頭部科學(xué)家,在語(yǔ)言建模方面有著相當(dāng)?shù)某晒?。他們其中既有?lái)自業(yè)界的研究人員,也有來(lái)自學(xué)術(shù)界的研究人員。

在今年的組織者中,有我們熟悉的陳丹琦、Angela Fan 等華人學(xué)者。

COLM 是一個(gè)專注于語(yǔ)言建模研究的學(xué)術(shù)場(chǎng)所,旨在創(chuàng)建一個(gè)具有不同科學(xué)專業(yè)知識(shí)的研究人員社區(qū),專注于理解、改進(jìn)和評(píng)論語(yǔ)言模型技術(shù)的發(fā)展。這不僅是學(xué)術(shù)界的一次創(chuàng)新嘗試,也是搭起了語(yǔ)言模型交流互鑒的新橋梁,進(jìn)一步促進(jìn)其探索和合作。

圖片

接收論文鏈接:https://colmweb.org/AcceptedPapers.html

剛剛,大會(huì)公布了 2024 年杰出論文獎(jiǎng),共有 4 篇論文獲獎(jiǎng)。

值得一提的是,號(hào)稱撼動(dòng) Transformer 統(tǒng)治地位的 Mamba 也在獲獎(jiǎng)?wù)撐闹小?/span>

此前,Mamba 這項(xiàng)研究慘遭 ICLR 拒稿,引來(lái)學(xué)術(shù)界軒然大波。

不過(guò),之后 Mamba 原班人馬發(fā)布的 Mamba-2 順利拿下了 ICML 2024。如今 Mamba 又獲得了 COLM 杰出論文獎(jiǎng),很多網(wǎng)友都送來(lái)祝賀。

圖片Mamba 作者之一、卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系助理教授 Albert Gu 用一張表情很好的表達(dá)了自己的感受,看來(lái)「COLM 是真香」。

圖片

杰出論文獎(jiǎng)

論文 1:Dated Data: Tracing Knowledge Cutoffs in Large Language Models

  • 機(jī)構(gòu):霍普金斯大學(xué)
  • 作者:Jeffrey Cheng、Marc Marone、Orion Weller、Dawn Lawrie等
  • 論文地址:https://openreview.net/pdf?id=wS7PxDjy6m

圖片

大型語(yǔ)言模型 (LLM) 通常有「知識(shí)截止日期」,即收集訓(xùn)練數(shù)據(jù)的時(shí)間。該信息對(duì)于需要 LLM 提供最新信息的應(yīng)用場(chǎng)景至關(guān)重要。

然而,訓(xùn)練數(shù)據(jù)中所有子資源是否共享相同的「知識(shí)截止日期」?模型響應(yīng)展示出的知識(shí)是否與數(shù)據(jù)截止值一致?

圖片

該論文定義了「有效截止」的概念,它與 LLM 報(bào)告的「知識(shí)截止日期」不同,并且訓(xùn)練數(shù)據(jù)子資源之間也有所不同。該研究提出了一種簡(jiǎn)單的方法,通過(guò)跨版本的數(shù)據(jù)探測(cè)來(lái)估計(jì) LLM 在資源級(jí)別的有效截止點(diǎn)。至關(guān)重要的是,該方法不需要訪問(wèn)模型的預(yù)訓(xùn)練數(shù)據(jù)。

通過(guò)分析,該研究發(fā)現(xiàn)有效的截止值通常與報(bào)告的截止值有很大不同。為了了解這一觀察結(jié)果的根本原因,該研究對(duì)開放的預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行了大規(guī)模分析。

圖片

分析揭示了造成這些不一致的兩個(gè)主要原因:

  • 由于新 dump 中存在大量舊數(shù)據(jù),導(dǎo)致 CommonCrawl 數(shù)據(jù)出現(xiàn)時(shí)間錯(cuò)位; 
  • LLM 重復(fù)數(shù)據(jù)刪除方案的復(fù)雜性涉及語(yǔ)義重復(fù)和詞匯近似重復(fù)。

論文 2:Mamba: Linear-Time Sequence Modeling with Selective State Spaces

  • 機(jī)構(gòu):卡內(nèi)基梅隆大學(xué)、普林斯頓大學(xué)
  • 作者:Albert Gu、Tri Dao
  • 論文地址:https://arxiv.org/pdf/2312.00752

圖片

自 2017 年被提出以來(lái),Transformer 已經(jīng)成為 AI 大模型的主流架構(gòu),但隨著模型規(guī)模擴(kuò)大和處理序列變長(zhǎng),其計(jì)算效率問(wèn)題凸顯,特別是在長(zhǎng)上下文中,計(jì)算量將呈平方級(jí)增長(zhǎng)。

為解決這一問(wèn)題,研究者們圍繞注意力開發(fā)了多種變體,如線性注意力、門控卷積、循環(huán)模型、SSMs 等,但它們?cè)谡Z(yǔ)言等模態(tài)上的表現(xiàn)并不理想,無(wú)法進(jìn)行基于內(nèi)容的推理。

基于此,論文作者進(jìn)行了幾項(xiàng)改進(jìn)。首先,讓 SSM 參數(shù)成為輸入的函數(shù),解決了離散模態(tài)的弱點(diǎn),使模型能根據(jù)當(dāng)前 token 有選擇地傳播或遺忘信息。

圖片

這種改動(dòng)導(dǎo)致卷積效率降低,對(duì)模型的計(jì)算帶來(lái)了挑戰(zhàn)。論文作者設(shè)計(jì)了一種硬件感知算法,將先前的 SSM 架構(gòu)設(shè)計(jì)與 Transformer 的 MLP 塊合并為一個(gè)塊,簡(jiǎn)化了深度序列模型架構(gòu),形成了一種包含選擇性狀態(tài)空間的簡(jiǎn)單、同質(zhì)的架構(gòu)設(shè)計(jì)(Mamba)。

圖片

Mamba 可以隨上下文長(zhǎng)度的增加實(shí)現(xiàn)線性擴(kuò)展,其性能在實(shí)際數(shù)據(jù)中可提高到百萬(wàn) token 長(zhǎng)度序列,并實(shí)現(xiàn) 5 倍的推理吞吐量提升。

作為通用序列模型的骨干,Mamba 在語(yǔ)言、音頻和基因組學(xué)等多種模態(tài)中都達(dá)到了 SOTA 性能。在語(yǔ)言建模方面,無(wú)論是預(yù)訓(xùn)練還是下游評(píng)估,他們的 Mamba-3B 模型都優(yōu)于同等規(guī)模的 Transformer 模型,并能與兩倍于其規(guī)模的 Transformer 模型相媲美。

更多詳情,可以參考機(jī)器之心之前的報(bào)道:五倍吞吐量,性能全面包圍 Transformer:新架構(gòu) Mamba 引爆 AI 圈。

論文 3:AI-generated text boundary detection with RoFT

  • 機(jī)構(gòu):俄羅斯 AI 基金會(huì)與算法實(shí)驗(yàn)室、英國(guó)倫敦瑪麗女王大學(xué)、日本 Noeon 研究所、斯科爾科沃科學(xué)技術(shù)學(xué)院等
  • 作者:Laida Kushnareva, Tatiana Gaintseva, Dmitry Abulkhanov等
  • 論文地址:https://arxiv.org/pdf/2311.08349

圖片

隨著大語(yǔ)言模型的發(fā)展,我們?cè)絹?lái)越頻繁地遇到這樣的情況:一篇文章起初可能出自人類之手,但隨后可能被 AI 接手加以潤(rùn)色。如何從這種文本中檢測(cè)出人類寫作與機(jī)器生成的界限?這是一個(gè)具有挑戰(zhàn)性的問(wèn)題,但還尚未得到太多關(guān)注。

論文作者試圖填補(bǔ)這一空白。他們對(duì)最先進(jìn)的檢測(cè)方法進(jìn)行了測(cè)試。具體而言,他們采用「真假文本」測(cè)試集,測(cè)試了在極限情況下,這些方法的表現(xiàn)?!刚婕傥谋尽箿y(cè)試集包含各種語(yǔ)言模型生成的多個(gè)主題的短文本。

圖片

他們發(fā)現(xiàn),基于困惑度的邊界檢測(cè)方法,在處理特定領(lǐng)域的數(shù)據(jù)時(shí),比對(duì) RoBERTa 模型進(jìn)行監(jiān)督式的方法更加魯棒。他們還發(fā)現(xiàn)了一些特定的文本特征。這些特征可能會(huì)干擾邊界檢測(cè)算法的判斷,導(dǎo)致算法在處理跨領(lǐng)域的文本時(shí),其性能會(huì)下降。

論文 4:Auxiliary task demands mask the capabilities of smaller language models

  • 機(jī)構(gòu):哈佛大學(xué)、斯坦福大學(xué)
  • 作者:Jennifer Hu、Michael Frank
  • 論文地址:https://openreview.net/forum?id=U5BUzSn4tD#discussion

圖片

發(fā)展心理學(xué)家一直在爭(zhēng)論語(yǔ)言理解或心理理論等認(rèn)知能力何時(shí)出現(xiàn)。這些爭(zhēng)論通常取決于「任務(wù)要求」的概念 —— 與執(zhí)行特定評(píng)估相關(guān)的挑戰(zhàn)。在衡量語(yǔ)言模型 (LM) 的能力時(shí),任務(wù)的性能是模型基礎(chǔ)知識(shí)的函數(shù),再加上模型在給定可用資源的情況下解釋和執(zhí)行任務(wù)的能力。

圖片

該研究表明,對(duì)于類比推理、反思推理、單詞預(yù)測(cè)和語(yǔ)法判斷,任務(wù)要求較高的評(píng)估方法比要求減少的評(píng)估方法產(chǎn)生的性能更低。對(duì)于參數(shù)較少和訓(xùn)練數(shù)據(jù)較少的模型,這種「需求差距」最為明顯。實(shí)驗(yàn)結(jié)果表明,LM 的性能不應(yīng)被解釋為智能(或缺乏智能)的直接表現(xiàn),而應(yīng)被解釋為通過(guò)研究人員設(shè)計(jì)選擇的視角所看到的能力反映。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-02-26 07:40:00

研究論文

2023-12-17 13:02:10

AI模型

2022-07-26 09:56:48

模型AI

2023-08-24 14:10:37

AI論文

2024-01-17 12:05:12

AI模型

2024-03-12 13:14:58

模型訓(xùn)練

2023-10-12 12:13:16

AI訓(xùn)練

2022-02-17 14:52:10

模型AI谷歌

2024-01-26 15:28:29

大模型MambaLeCun

2024-01-26 12:51:33

AI

2025-06-25 09:15:38

AI模型LLM

2024-01-26 12:48:49

AI數(shù)據(jù)

2023-03-23 18:46:19

論文

2024-02-19 13:10:02

AI模型

2023-10-05 12:28:41

AI論文

2024-05-08 09:37:36

AI論文

2021-08-25 16:53:32

技術(shù)研發(fā)論文

2021-07-19 15:02:48

機(jī)器人人工智能算法

2023-03-04 21:57:26

蘋果學(xué)者

2024-07-17 16:12:22

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91av精品| 国产精品视频一区二区三区四蜜臂 | 成人在线观看免费爱爱 | 免费黄色特级片 | 日日干天天操 | 亚洲永久精品国产 | 黄色大片在线播放 | 亚洲二区在线 | 欧美日韩亚洲视频 | 成人在线中文字幕 | 一区二区精品 | 日本久久久影视 | 欧美视频一区二区三区 | 日韩成人在线观看 | 欧美日韩在线一区 | 精品一区二区三区四区五区 | 91精品欧美久久久久久久 | 免费黄视频网站 | 羞羞的视频在线 | www国产成人免费观看视频 | 伊人久久精品一区二区三区 | 亚洲精品久久久久久久久久久久久 | av中文字幕在线观看 | 日韩高清中文字幕 | 欧美视频免费在线观看 | 精品视频一区在线 | 久久精品一区二区 | 91精品久久久久久久久中文字幕 | 亚洲视频一区 | 国产亚洲精品精品国产亚洲综合 | 亚洲不卡| 奇米av| 伊人精品 | 亚洲成人二区 | 91视频网 | 五月综合激情网 | 亚洲一区二区在线 | 波多野结衣二区 | 中文字幕日本一区二区 | 91视频免费视频 | 国产精品中文 |