成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NeurIPS 2024最佳論文開獎!北大字節(jié)NUS奪冠,Ilya連續(xù)三年獲獎

人工智能 新聞
NeurIPS 2024最佳論文終于正式揭曉了!今年,來自北大字節(jié),以及新加坡國立大學等機構的團隊摘得桂冠。

剛剛,NeurIPS 2024最佳論文放榜了!

圖片

不出所料,今年兩篇最佳論文分別頒給了北大字節(jié)團隊,和新加坡國立大學Sea AI Lab團隊。

圖片

除此之外,大會還公布了「數(shù)據(jù)集與基準」賽道的最佳論文,以及主賽道最佳論文獎委員會,數(shù)據(jù)集和基準賽道最佳論文獎委員會。

圖片

今年,是NeurIPS第38屆年會,于12月9日-15日在加拿大溫哥華正式拉開帷幕。

圖片

前段時間,NeurIPS 2024剛剛公布的時間檢驗獎,分別頒給了Ilya Sutskever的Seq2Seq,和Ian Goodfellow的GAN。

有網友發(fā)現(xiàn),Ilya已經連續(xù)三年拿下該獎,可以創(chuàng)歷史了。

圖片

2022年AlexNet,2023年Word2Vec,2024年Seq2Seq

今年,NeurIPS 2024的總投稿數(shù)量再創(chuàng)新高,共有15000多篇論文提交,錄用率為25.8%。

從研究內容主題的整體分布來看,主要集中在大模型、文生圖/文生視頻、強化學習、優(yōu)化這四大塊。

圖片

再細分來看,機器視覺、自然語言處理、強化學習、學習理論、基于擴散的模型是最熱的5個話題。

圖片

共計165000名參會者,也創(chuàng)下歷年新高。

圖片

獲獎論文一:超越擴散,VAR開啟視覺自回歸模型新范式

拿下最佳論文的第一篇,是由北大字節(jié)團隊共同提出的一種全新范式——視覺自回歸建模(Visual Autoregressive Modeling,VAR)。

圖片

論文地址:https://arxiv.org/abs/2404.02905

與傳統(tǒng)的光柵掃描「下一個token預測」方法有所不同,VAR重新定義了圖像上的自回歸學習,采用粗到細的「下一個尺度預測」或「下一個分辨率預測」。

這種簡單直觀的方法使得自回歸(AR)Transformer能夠快速學習視覺分布,并且具有較好的泛化能力:VAR首次使得類似GPT的AR模型在圖像生成中超越了擴散Transformer。

圖片

首先,將圖像編碼為多尺度的token映射,然后,自回歸過程從1×1token映射開始,并逐步擴展分辨率。

在每一步中,Transformer會基于之前所有的token映射去預測下一個更高分辨率的token映射。

VAR包括兩個獨立的訓練階段:在圖像上訓練多尺度VQVAE,在token上訓練VAR Transformer。

第一階段,多尺度VQ自動編碼器將圖像編碼為K個token映射R=(r1,r2,…,rK),并通過復合損失函數(shù)進行訓練。

第二階段,通過下一尺度預測對VAR Transformer進行訓練:它以低分辨率token映射 ([s],r1,r2,…,rK?1)作為輸入,預測更高分辨率的token映射 (r1,r2,r3,…,rK)。訓練過程中,使用注意力掩碼確保每個rk僅能關注 r≤k。訓練目標采用標準的交叉熵損失函數(shù),用于優(yōu)化預測精度。

圖片

實驗證明,VAR在多個維度上超越了擴散Transformer(DiT),包括圖像質量、推理速度、數(shù)據(jù)效率和可擴展性。

其中,VAR初步模仿了大語言模型的兩個重要特性:Scaling Law和零樣本泛化能力。

圖片圖片

獲獎論文二:STDE,破解高維高階微分算子的計算難題

第二篇獲獎論文,是由新加坡國立大學和Sea AI Lab提出的一種可通過高階自動微分(AD)高效評估的分攤方案,稱為隨機泰勒導數(shù)估計器(STDE)。

圖片

論文地址:https://openreview.net/pdf?id=J2wI2rCG2u

這項工作討論了優(yōu)化神經網絡在處理高維 (d) 和高階 (k) 微分算子時的計算復雜度問題。

當使用自動微分計算高階導數(shù)時,導數(shù)張量的大小隨著O(dk)擴展,計算圖的復雜度隨著 O(2k-1L)增長。其中,d是輸入的維度(域的維度),k是導數(shù)的階數(shù),L是前向計算圖中的操作數(shù)量。

在之前的研究中,對于多維擴展dk,使用的是隨機化技術,將高維的多項式增長變?yōu)榫€性增長;對于高階擴展 2k-1,則通過高階自動微分處理了一元函數(shù)(即d=1)的指數(shù)增長問題。

圖片

通過反向模式自動微分(AD)的重復應用,計算函數(shù)F(?)的二階梯度的計算圖。該函數(shù)包含4個基本操作(L=4),用于計算Hessian矩陣與向量的乘積。紅色節(jié)點表示在第二次反向傳播過程中出現(xiàn)的余切節(jié)點。隨著向量-雅可比積(VJP)的每次重復應用,順序計算的長度會加倍

在研究中,團隊展示了如何通過適當構造輸入切向量,利用一元高階自動微分,有效執(zhí)行多元函數(shù)導數(shù)張量的任意階收縮,從而高效隨機化任何微分算子。

該方法的核心思想是「輸入切向量構造」。通過構造特定的「輸入切向量」(方向導數(shù)),可以將多維函數(shù)的高階導數(shù)計算轉化為一元高階自動微分問題。這意味著將復雜的多元導數(shù)運算轉化為多個一元導數(shù)運算,從而減小了計算復雜度。

圖片

該計算圖顯示了函數(shù)F的二階導數(shù)d2F,其中F包含4個基本操作,參數(shù)θi被省略。最左側的第一列表示輸入的二階射流(2-jet)圖片,并通過d2F1將其推向下一列中的二階射流圖片。每一行都可以并行計算,且不需要緩存評估軌跡

將該方法應用于物理信息神經網絡(PINNs)時,相較于使用一階自動微分的隨機化方法,該方案在計算速度上提高了1000倍以上,內存占用減少了30倍以上。

借助該方法,研究團隊能夠在一塊NVIDIA A100 GPU上,在8分鐘內求解具有百萬維度的偏微分方程(PDEs)。

這項工作為在大規(guī)模問題中使用高階微分算子開辟了新的可能性,特別是在科學計算和物理模擬中具有重要意義。

圖片

「數(shù)據(jù)集與基準」最佳論文

這篇由牛津、賓大等12家機構聯(lián)手提出的數(shù)據(jù)集PRISM,榮獲了「數(shù)據(jù)集與基準」賽道的最佳論文。

圖片

論文地址:https://openreview.net/pdf?id=DFr5hteojx

這篇論文通過收集來自75個國家、1500多名參與者的詳細反饋,科學家們首次全面繪制了AI模型與人類交互的復雜圖景。

它就像是為AI「驗血」:不僅僅是檢查技術指標,更是深入了解AI與不同文化、不同背景人群的交互細節(jié)。

具體來說,研究人員收集了人們與21個大模型交互的8,011次真實數(shù)據(jù)。

而且,他們還詳細記錄了參與者的社會人口學特征和個人偏好。

最關鍵的是,這項研究聚焦了主觀和多文化視角中,最具挑戰(zhàn)性領域,尤其是關注價值觀相關和有爭議問題上的主觀和多元文化視角。

通過PRISM數(shù)據(jù)集,為未來研究提供了新的視角:

- 擴大地理和人口統(tǒng)計學的參與度

- 為英國、美國提供具有人口普查代表性的樣本

- 建立了個性化評級系統(tǒng),可追溯參與者詳細背景

圖片

總的來說,這項研究具有重要的社會價值,并推動了關于RLHF中多元化和分歧的研究。

NeurIPS 2024實驗:LLM作為科學論文作者清單助手的效果評估

隨著大獎出爐后,NeurIPS 2024終于公布了將大模型作為清單助手的效果評估報告。

圖片

如今,雖然存在著不準確性和偏見等風險,但LLM已經開始被用于科學論文的審查工作。

而這也引發(fā)了一個緊迫的問題:「我們如何在會議同行評審的應用中負責任且有效地利用LLM?」

今年的NeurIPS會議,邁出了回答這一問題的第一步。

圖片

論文地址:https://arxiv.org/abs/2411.03417

具體來說,大會評估了一個相對明確且低風險的使用場景:根據(jù)提交標準對論文進行核查,且結果僅顯示給論文作者。

其中,投稿人會收到一種可選擇使用的基于LLM的「清單助手」,協(xié)助檢查論文是否符合NeurIPS清單的要求。

隨后,研究人員會系統(tǒng)地評估這一LLM清單助手的益處與風險,并聚焦于兩個核心問題:

1. 作者是否認為LLM作者清單助手是對論文提交過程的一種有價值的增強?

2. 使用作者清單助手是否能顯著幫助作者改進其論文提交?

最終結論如下:

「LLM清單助手可以有效地幫助作者確保科學研究的嚴謹性,但可能不應作為一種完全自動化的審查工具來取代人工審查。」

圖片

1. 清單助手有用嗎?

研究人員對作者們進行了問卷調查,以便了解他們對使用清單助手前后的期望和感受。

調查共收到539份使用前問卷回復,清單助手共處理了234份提交,同時收到了78份使用后問卷回復。

結果顯示,作者普遍認為清單助手是對論文提交過程的一項有價值的改進——

大多數(shù)接受調查的作者表示,使用LLM清單助手的體驗是積極的。其中,超過70%的作者認為工具有用,超過70%的作者表示會根據(jù)反饋修改論文。

值得注意的是,作者在實際使用之前對助手有效性的期望比實際使用后的評價更為積極。比較使用前后的反饋可以發(fā)現(xiàn),在「有用性」和「期待使用」方面的正面評價出現(xiàn)了具有統(tǒng)計學意義的顯著下降。

圖片

2. 清單助手的主要問題是什么?

作者使用清單助手時遇到的問題,按類別歸納如下。

主要問題包括:不準確性(52名回復者中有20人提到),以及LLM對要求過于苛刻(52名回復者中有14人提到)。

圖片

3. 清單助手提供了哪些類型的反饋?

研究者使用了另一個LLM,從清單助手對每個清單問題的回復中提煉關鍵點,將其歸類。

以下展示了作者清單助手在清單的四個問題上提供的常見反饋類別:

圖片

LLM 能夠結合論文內容和清單要求,為作者提供具體的反饋。對于清單中的15個問題,LLM通常會針對每個問題提供4-6個不同且具體的反饋點。

盡管其回復中有時包含一些模板化內容,并可能擴展問題的范圍,但它也能夠針對許多問題提供具體且明確的反饋。

4. 作者是否真的修改了提交的內容?

根據(jù)反饋,很多作者表示計劃對他們的提交內容做出實質性的修改。

在78名回復者中,有35人具體說明了他們會根據(jù)清單助手的反饋對提交內容進行的修改。其中包括,改進清單答案的說明,以及在論文中添加更多關于實驗、數(shù)據(jù)集或計算資源的細節(jié)。

在40個實例中,作者將他們的論文提交到清單驗證工具兩次(總共提交了80篇論文)。

結果顯示,在這40對(兩次提交的)論文中,有22個實例中作者在第一次和第二次提交之間至少更改了清單中的一個答案(例如,從「NA」改為「是」),并且在39個實例中更改了至少一個清單答案的說明。

在更改了清單說明的作者中,許多作者進行了大量修改,其中35/39在清單的15個問題中更改了超過6個說明。

雖然并不能將這些修改因果歸因于清單助手,但這些修改表明作者可能在提交之間采納了助手的反饋。

以下是在作者更改說明的問題中,從初次提交到最終提交的字數(shù)增長情況(值為2表示答案長度增加了一倍)。

可以看到,當作者更改清單答案時,超過一半的情況下,他們將答案說明的長度增加了一倍以上。

總結來說,當作者多次向清單助手提交時,他們幾乎都會在提交之間對清單進行修改,并顯著延長了答案的長度,這表明他們可能根據(jù)LLM的反饋添加了內容。

圖片

5. 清單助手是否可以被操控?

清單助手的設計初衷,是幫助作者改進論文,而不是作為審稿人驗證作者回答準確性的工具。

如果該系統(tǒng)被用作審稿流程中的自動驗證步驟,這可能會激勵作者「操控」系統(tǒng),從而引發(fā)以下問題:作者是否可以借助AI,在無需對論文做出實際修改的情況下,自動提升清單回答的評價?

如果這種操控是可能的,作者可能會在沒有(太多)額外努力且不實際改進論文的情況下,向會議提供虛假的合規(guī)印象。

為了評估系統(tǒng)是否容易受到這種操控,研究者使用另一個LLM作為攻擊智能體,迭代性地修改清單說明,試圖誤導清單助手。

在這一迭代過程中,攻擊智能體在每輪之后從系統(tǒng)接收反饋,并利用反饋優(yōu)化其說明。

研究者向GPT-4提供了初始的清單回答,并指示其僅根據(jù)反饋修訂說明,而不改變論文的基礎內容。允許攻擊智能體進行三次迭代(與部署助手的提交限制一致),智能體在每次迭代中選擇得分最高的清單問題回答。

為了以統(tǒng)計方式量化這種攻擊的成功率,研究者將選定的說明提交給清單助手進行評估,獲取「評分」(當清單助手表示清單問題「無問題」時得分為1,當助手識別出問題時得分為0)。

以下展示了該攻擊的結果:

圖片

結論

通過在NeurIPS 2024部署了一個基于LLM的論文清單助手,證明了LLM在提升科學投稿質量方面的潛力,特別是通過幫助作者驗證其論文是否符合提交標準。

結論通過在NeurIPS 2024部署了一個基于LLM的論文清單助手,證明了LLM在提升科學投稿質量方面的潛力,特別是通過幫助作者驗證其論文是否符合提交標準。

然而,研究指出了在科學同行評審過程中部署LLM時需要解決的一些顯著局限性,尤其是準確性和契合度問題。

此外,系統(tǒng)在應對作者的操控時缺乏抵抗力,這表明盡管清單助手可以作為作者的輔助工具,但可能無法有效取代人工評審。

NeurIPS將在2025年繼續(xù)改進基于LLM的政策評審。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-04 12:10:40

2024-12-05 10:00:31

2024-11-28 12:37:07

2011-03-16 10:58:49

InformaticaCloud

2024-12-04 13:30:00

2023-11-10 12:53:35

論文AI

2010-10-19 11:50:32

惠普

2025-01-15 14:58:06

2023-03-23 18:46:19

論文

2024-12-16 08:20:00

AI工具

2025-03-05 09:40:00

2012-07-31 09:19:02

程序員

2014-08-28 17:51:00

達夢數(shù)據(jù)庫

2010-06-04 10:27:04

蘋果

2023-08-31 13:51:37

計算系統(tǒng)

2010-02-26 10:22:11

IPv4

2013-03-21 13:48:48

網宿科技財報分析

2025-01-23 12:30:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99久久亚洲| 特级毛片 | 国产精品高潮呻吟久久 | 草久久| 成人黄色三级毛片 | 羞羞视频在线观看网站 | 国产精品日韩高清伦字幕搜索 | 亚洲国产中文字幕 | 亚洲国产成人av | 欧美综合久久 | 欧美三级成人理伦 | 午夜精品一区二区三区三上悠亚 | 免费久久久 | 国产精品久久久久久二区 | 成人av一区 | wwwxxx国产| 国产欧美日韩一区 | 久久久久国产精品午夜一区 | 午夜在线视频 | 精品日韩| 国产不卡一区在线观看 | 91久久久精品国产一区二区蜜臀 | 性一区| 国产色网站 | 一级黄色片在线免费观看 | 视频羞羞 | 888久久久 | 精品免费国产一区二区三区四区 | www国产亚洲精品久久网站 | 国产精品久久久久无码av | 午夜精品久久久久久久久久久久久 | 91精品国产综合久久久久久丝袜 | 91麻豆精品一区二区三区 | 伊人影院99 | 91精品国产一区二区三区 | 99pao成人国产永久免费视频 | 黄色在线免费观看视频 | 日韩精品在线播放 | 欧美综合一区二区 | 久久美国 | 久久久久久国产精品 |