預測未來模型能力!微調(diào)揭示LLM涌現(xiàn)能力的關鍵在加州大學伯克利分校的智慧殿堂中,一群天才研究者們正試圖解開現(xiàn)代大型語言模型(LLM)擴展中的一個根本性難題:涌現(xiàn)能力的不可預測性。想象一下,你正在訓練一個語言模型,它的預訓練損失隨著計算量的增加而可預測地下降,就像一個乖巧的學生按部就班地學習。但當涉及到下游任務時,情況就變得復雜了——有時模型會在某個看似隨機的點上突然“開竅”,這種“涌現(xiàn)”現(xiàn)象讓預測未...
2024-12-09 09:10:30 2306瀏覽 0點贊 0回復 0收藏
預測未來模型能力!微調(diào)揭示LLM涌現(xiàn)能力的關鍵在加州大學伯克利分校的智慧殿堂中,一群天才研究者們正試圖解開現(xiàn)代大型語言模型(LLM)擴展中的一個根本性難題:涌現(xiàn)能力的不可預測性。想象一下,你正在訓練一個語言模型,它的預訓練損失隨著計算量的增加而可預測地下降,就像一個乖巧的學生按部就班地學習。但當涉及到下游任務時,情況就變得復雜了——有時模型會在某個看似隨機的點上突然“開竅”,這種“涌現(xiàn)”現(xiàn)象讓預測未...
2024-12-03 15:46:55 2156瀏覽 0點贊 0回復 0收藏
在3D世界中,尋找任何物體的一部分聽起來像是科幻小說中的情節(jié),但加州理工學院的ZiqiMa、YisongYue和GeorgiaGkioxari卻將其變成了現(xiàn)實。他們開發(fā)的FIND3D模型,不僅能夠根據(jù)任何文本查詢分割任何物體的任何部分,還能在開放世界中零距離應用。想象一下,你只需說“汽車的輪子”,F(xiàn)IND3D就能精確地找到并分割出這個部分,無論是從網(wǎng)絡上的3D資產(chǎn),還是從iPhone拍攝的照片中重建的3D模型。FIND3D的背后是一個由2D基礎模型(如SAM...
2024-11-27 11:21:37 2305瀏覽 0點贊 0回復 0收藏
你是否曾為ChatGPT生成的那首“驚艷”詩歌而贊嘆不已?又或是被GPT4編寫的“神級”劇本所折服?然而,華盛頓大學和艾倫人工智能研究所的最新研究卻給我們潑了一盆冷水——AI的“創(chuàng)意”,其實不過是“拼湊大師”罷了!研究人員們開發(fā)了一套名為“創(chuàng)意指數(shù)”(CREATIVITYINDEX)的評估體系,通過分析文本中與網(wǎng)絡文本的相似度,來衡量AI的“創(chuàng)意”程度。結(jié)果令人驚訝——專業(yè)人類作者的“創(chuàng)意指數(shù)”平均比AI高出66.2%!這簡直就像...
2024-11-25 10:10:56 2496瀏覽 0點贊 0回復 0收藏
機器人操作領域一直致力于讓機器人學會執(zhí)行復雜任務,從模仿學習人類示范中汲取經(jīng)驗是一個重要方法。但收集大量人類示范數(shù)據(jù)成本高昂且耗時,尤其對于長周期任務而言,這一問題更為突出。為解決這一困境,NVIDIA的研究團隊提出了SkillMimicGen(SkillGen)系統(tǒng)。該系統(tǒng)能夠從少量人類示范中生成大量高質(zhì)量的演示數(shù)據(jù)集,為機器人學習提供充足的數(shù)據(jù)支持。今天我們就一起來學習一下這篇論文吧!1.任務分解與技能抽象SkillGen的核...
2024-10-28 12:45:15 2849瀏覽 0點贊 0回復 0收藏
今天我們介紹來自普林斯頓NLP組的一篇很有意思的博客,作者提出了大語言模型中自我發(fā)現(xiàn)的蘇格拉底方法。一、核心內(nèi)容(一)多智能體協(xié)作解決問題(有人類參與)智能體角色分配文中提到在涉及基于大型語言模型的智能體和人類參與的多智能體協(xié)作解決問題領域十分引人關注。通過給大型語言模型賦予如“分析員”或“校對員”等不同角色,能夠有效利用它們各自的優(yōu)勢,增強整體解決問題的能力。這種角色分配就像是在一個團隊中,每個...
2024-10-21 15:08:31 3009瀏覽 0點贊 0回復 0收藏
大語言模型(LLMs),以及一般的語言模型(LMs),催生了一種新的編程方式,其中“指令”不再是明確的應用程序編程接口(APIs),而是像英語這樣的自然語言語句。該領域(一個被稱為提示工程的新領域)的專家通過組合特定的關鍵詞、提示格式,甚至認知模型來對他們的語言模型進行編程——或者從語言模型中引出特定行為。過去兩年表明,語言模型可以產(chǎn)生廣泛的變革性影響,但在無縫集成到更大的程序環(huán)境方面存在固有局限。它們對...
2024-10-21 15:05:09 2605瀏覽 0點贊 0回復 0收藏
自從JohnSchulman、JanLeike等大牛離職加入Anthropic,AISafety&Alignment的研究中心也逐漸由OpenAI轉(zhuǎn)移到Anthropic。今天,小編就帶來一篇來自Anthropic的AI安全相關的論文解讀,搬起小板凳一起吧!一、前沿模型帶來的潛在風險隨著前沿語言模型能力的不斷提升,它們所帶來的潛在災難性風險受到了廣泛關注。像OpenAI、Anthropic等前沿實驗室都在進行部署前的風險測試。這些風險通常包括模型被外部行為者濫用,比如在生物風險、...
2024-10-21 10:24:38 2525瀏覽 0點贊 0回復 0收藏
人工智能領域正經(jīng)歷著范式轉(zhuǎn)變,基礎模型(如GPT4、LLAMA2)處于核心位置,驅(qū)動著技術創(chuàng)新和大量投資。這引發(fā)了對其監(jiān)管的廣泛需求。而在關于如何監(jiān)管基礎模型的討論中,模型的發(fā)布過程至關重要。近日,由斯坦福大學基礎模型研究中心主任PercyLiang領導的論文《ConsiderationsforGoverningOpenFoundationModels》發(fā)表在Science,對開源大模型治理與監(jiān)管進行了深入探討,今天我們就一起學習一下這篇重要論文吧!一、基礎模型的發(fā)...
2024-10-15 15:36:34 3275瀏覽 0點贊 0回復 0收藏
在自然語言處理(NLP)領域,語言模型程序(LanguageModelPrograms)正逐漸成為推動任務進展的關鍵力量。這些由多個模塊化語言模型(LM)調(diào)用組成的復雜管道,為解決復雜的NLP任務提供了新的思路和方法。然而,構(gòu)建這些管道并非易事,其中一個關鍵挑戰(zhàn)就是如何優(yōu)化提示(prompts),使得所有模塊都能高效協(xié)同工作。今天我們就來介紹一篇來自DSPy一作、斯坦福大學博士生、并且即將成為MIT助理教授的OmarKhattab領導的一項有意思...
2024-10-11 19:39:26 2296瀏覽 0點贊 0回復 0收藏
在深度學習的世界里,Boltzmann機器是一種很有趣的模型,通過概率來理解數(shù)據(jù)。想象一下,我們有很多變量,它們之間的關系就像一張復雜的網(wǎng)。Boltzmann機器就是試圖描述這些變量之間的概率關系。它有不同的版本,比如深Boltzmann機器(DBM)和受限Boltzmann機器(RBM)。RBM是一種比較常用的形式,它避免了模型同一層內(nèi)的連接,這樣可以使用更高效的基于塊的近似推理方法。但是,我們不禁要問,除了這種限制,還有沒有其他的限制...
2024-10-10 13:10:39 2995瀏覽 0點贊 0回復 0收藏
一、引言OpenAI發(fā)布的草莓o1模型為評估大語言模型(LLMs)在規(guī)劃和調(diào)度基準上的進展提供了新的機會,但是它的規(guī)劃能力到底怎么樣呢?近期,規(guī)劃領域泰斗SubbaraoKambhampati教授領銜的論文對其進行了研究,旨在全面評估o1在既定規(guī)劃和調(diào)度基準上的性能,并展示如何通過將大型推理模型(LargeReasoningModel,LRM)嵌入到帶有可靠驗證器的循環(huán)中,為其輸出提供正確性保證并提高性能。SubbaraoKambhampati一直是經(jīng)典AI的代表人物,...
2024-10-08 11:08:18 2842瀏覽 0點贊 0回復 0收藏
人類智能的一個獨特特征是能夠?qū)⒚嫦蛉蝿盏男袨榕c語言推理(或稱作內(nèi)心獨白)無縫結(jié)合。理論上,這被認為是人類認知中的重要一環(huán),能夠?qū)崿F(xiàn)自我調(diào)節(jié)或策略化并維持工作記憶。以在廚房烹飪一道菜為例,在任何兩個具體行為之間,我們可能會:(1)用語言進行推理以跟蹤進度(例如“現(xiàn)在一切都切好了,我應該把水壺里的水加熱”);(2)處理異常情況或根據(jù)情況調(diào)整計劃(例如“我沒有鹽,所以讓我用醬油和胡椒代替”);(3)意識...
2024-09-18 13:56:23 3028瀏覽 0點贊 0回復 0收藏
2024年,大語言模型智能體LLMAgent吸引了越來越多人的關注,各種技術層出不窮。相比于傳統(tǒng)機器學習方法,LLMAgent借助于大語言模型的涌現(xiàn)能力,能夠?qū)崿F(xiàn)少樣本、零樣本學習,并且能夠?qū)崿F(xiàn)與現(xiàn)實物理世界的交互。如何入門這一令人興奮的領域呢?小編找到了OpenAI研究員LilianWeng分享的博客,并全文翻譯過來,原文地址:https:lilianweng.github.ioposts20230623agent構(gòu)建以大型語言模型(LLM)為核心控制器的智能體是一個極富創(chuàng)...
2024-09-13 12:45:00 4126瀏覽 0點贊 0回復 0收藏
模擬在推動機器人學習方面發(fā)揮了重要作用,通過提供一個受控而多變的環(huán)境來開發(fā)和測試算法。特別是數(shù)據(jù)驅(qū)動方法通常將機器人部署到仿真環(huán)境中,在各種多樣化和隨機化的設置中進行廣泛訓練,以實現(xiàn)可泛化和適應性強的行為。通過隨機化物體形狀、紋理和動態(tài)特性,機器人學習取得了顯著進展。然而,盡管物體屬性是一個關鍵因素,但物體布局仍然具有挑戰(zhàn)性,難以實現(xiàn)完全開放式的隨機化。與可以在不干擾其他物體的情況下輕松指定范...
2024-07-11 13:24:04 3038瀏覽 0點贊 0回復 0收藏
強化學習(RL)在復雜任務上取得了令人矚目的成果,但在具有不同實施方式的多任務設置中存在困難。世界模型通過學習環(huán)境的模擬來提供可伸縮性,但它們通常依賴于低效的無梯度優(yōu)化方法。近日,佐治亞理工學者聯(lián)合英偉達、加州大學圣地亞哥分校等學者提出了基于大世界模型的策略學習(PWM),這是一種新穎的基于模型的RL算法,它從大型多任務世界模型中學習連續(xù)控制策略。通過對離線數(shù)據(jù)進行世界模型的預訓練,并將其用于一階梯度...
2024-07-08 08:01:47 3013瀏覽 0點贊 0回復 0收藏
想象一下,擁有一個不僅能回答問題,還能瀏覽網(wǎng)頁、解決復雜數(shù)學問題、編寫代碼,甚至能推理圖像和基于文本的游戲的數(shù)字助手。聽起來好得難以置信好吧,準備好迎接人工智能的未來,因為隨著LUMOS的引入,它變得更加易于獲取和透明。在一項突破性的發(fā)展中,來自艾倫人工智能研究所、UCLA和華盛頓大學的研究人員推出了LUMOS,這是一個開源框架,有望徹底改變我們與語言代理的交互方式。與現(xiàn)有的閉源解決方案不同,LUMOS提供了前所未有的可負...
2024-06-24 16:08:17 2984瀏覽 0點贊 0回復 0收藏
近日,微軟的AzureAI團隊在HuggingFace上發(fā)布了一個名為Florence2的新視覺基礎模型。該模型以寬松的MIT許可證可用,可以處理各種視覺和視覺語言任務,使用統(tǒng)一的基于提示的表示形式。它有兩個尺寸——232M和771M個參數(shù),并且在字幕生成、目標檢測、視覺定位和分割等任務上已經(jīng)表現(xiàn)出色,與許多大型視覺模型相媲美甚至更好。盡管該模型的實際性能尚待測試,但這項工作預計將為企業(yè)提供一種處理不同類型視覺應用的統(tǒng)一方法。這將...
2024-06-21 14:31:45 4477瀏覽 0點贊 0回復 0收藏
教育數(shù)據(jù)中的課堂對話等信息包含了關于學生學習方式的大量洞察。但是,處理和分析這些數(shù)據(jù)是相當痛苦的。近日,斯坦福大學研究團隊提出EduConvoKit,這是一個能夠為你處理預處理、注釋和分析的流程!用于規(guī)模化教育的語言工具令人感到興奮,因為正在擺脫僅以標準化考試成績衡量學習的過度簡化觀點......而轉(zhuǎn)向以學生思維和教學法為基礎的語言評估。倉庫鏈接:https:github.comstanfordnlpeduconvokit來看看EduConvoKit的實際應...
2024-06-20 13:10:13 2532瀏覽 0點贊 0回復 0收藏
動機離線強化學習(RL)和模仿學習之間的主要區(qū)別在于使用價值函數(shù),并且離線RL中的大多數(shù)先前工作都側(cè)重于使用更好的技術學習更好的價值函數(shù)。所以價值函數(shù)學習是離線RL的主要瓶頸……對嗎?在這項工作中,研究人員表明,實踐中情況往往并非如此!分析離線強化學習的瓶頸這項工作的主要目標是了解離線RL的性能在實踐中如何受到瓶頸限制。離線RL有三個潛在瓶頸:(B1)數(shù)據(jù)價值評估不完善(B2)從學習到的價值函數(shù)中提取不完善的...
2024-06-18 12:40:28 2876瀏覽 0點贊 0回復 0收藏