從OpenAI的o1模型到DeepSeek的R1系列,這些模型展現(xiàn)了接近人類系統(tǒng)2推理能力的驚人表現(xiàn)。然而,正如諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼在其著作《思考,快與慢》中所揭示的那樣,"最費(fèi)力的慢思考形式是那些需要你快速思考的形式"。這一看似矛盾的觀點(diǎn),正是當(dāng)前大語言推理模型面臨的核心挑戰(zhàn)。當(dāng)前的大語言推理模型雖然能夠通過強(qiáng)化學(xué)習(xí)訓(xùn)練來實(shí)現(xiàn)慢思考,但在推理過程的調(diào)節(jié)上仍存在明顯不足。它們要么過度思考(overthinking)...
21h前 251瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
近日MetaAI發(fā)布了VJEPA2(VideoJointEmbeddingPredictiveArchitecture2),這一開源世界模型的推出標(biāo)志著AI從數(shù)字世界向物理世界邁出了重要一步。這個(gè)系統(tǒng)能夠從互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)中學(xué)習(xí),實(shí)現(xiàn)強(qiáng)大的視覺理解、未來狀態(tài)預(yù)測(cè)和零樣本規(guī)劃能力,為智能物理代理的發(fā)展奠定了重要基礎(chǔ)。1.基于JEPA的創(chuàng)新突破VJEPA2建立在聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)的基礎(chǔ)上,這是一種革命性的自監(jiān)督學(xué)習(xí)方法。與傳統(tǒng)的生成式預(yù)訓(xùn)練方法不同,JEPA...
2025-06-15 23:41:42 482瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
視覺語言動(dòng)作模型(VisionLanguageAction,VLA)已成為機(jī)器人智能控制的重要突破口。然而,傳統(tǒng)的VLA模型往往依賴于擁有數(shù)十億參數(shù)的大型變換器架構(gòu),這不僅帶來了巨大的內(nèi)存和計(jì)算成本,還將實(shí)驗(yàn)和部署局限在資源充足的實(shí)驗(yàn)室和云端環(huán)境中。HuggingFace于2025年6月3日正式發(fā)布了SmolVLA——一個(gè)專為經(jīng)濟(jì)和高效部署而設(shè)計(jì)的緊湊型VLA模型。SmolVLA的推出標(biāo)志著機(jī)器人控制技術(shù)的一個(gè)重要轉(zhuǎn)折點(diǎn)。它不僅打破了傳統(tǒng)VLA模型的資源壁...
2025-06-15 23:41:04 516瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
GRIT從本質(zhì)上而言是一種改良過的強(qiáng)化學(xué)習(xí),它針對(duì)輸出進(jìn)行了魔改,用一個(gè)生活例子來理解。想象一下,你在和朋友看一張照片,朋友問你:"這張照片里有幾只貓?"普通人會(huì)怎么回答?"我看看,這里有一只白貓(用手指著左上角),那里還有一只黑貓(指著右下角),所以一共有2只貓。"傳統(tǒng)AI是怎么回答的?"我需要仔細(xì)觀察這張圖片,分析其中的動(dòng)物特征,通過形狀、顏色等特征識(shí)別,最終得出結(jié)論:圖片中有2只貓。"看出區(qū)別了嗎?人...
2025-06-03 07:01:32 673瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
當(dāng)我們看到一張照片時(shí),大腦會(huì)自動(dòng)分析其中的空間關(guān)系——哪個(gè)物體在前,哪個(gè)在后,左邊是什么,右邊是什么。但對(duì)于當(dāng)今最先進(jìn)的AI系統(tǒng)來說,這種看似簡(jiǎn)單的空間理解卻是一個(gè)巨大的挑戰(zhàn)。MetaFAIR和香港中文大學(xué)的研究團(tuán)隊(duì)最近發(fā)布的MultiSpatialMLLM項(xiàng)目,正在試圖解決這個(gè)根本性問題。現(xiàn)有的多模態(tài)大語言模型雖然在圖像識(shí)別和文本理解方面表現(xiàn)出色,但在空間推理上卻存在嚴(yán)重缺陷。這些模型往往連最基本的左右區(qū)分都會(huì)出錯(cuò),...
2025-06-03 06:51:02 592瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
通過內(nèi)存緩沖+輪次壓縮解決上下文記憶和效率矛盾,通過外部激活模型實(shí)現(xiàn)主動(dòng)性,是StreamBridge的關(guān)鍵創(chuàng)新點(diǎn)傳統(tǒng)的視頻大語言模型(VideoLLM)通常一次性處理整個(gè)視頻,對(duì)實(shí)時(shí)輸入支持不足。然而在機(jī)器人、無人駕駛等應(yīng)用中,需要模型具有因果感知和動(dòng)態(tài)反應(yīng)能力,即能夠在視頻流不斷到來時(shí)及時(shí)理解新內(nèi)容并主動(dòng)輸出。StreamBridge提出了一個(gè)簡(jiǎn)單有效的框架,將現(xiàn)有的離線VideoLLM縫升級(jí)為可處理流式視頻的系統(tǒng)。它針對(duì)流式場(chǎng)景中...
2025-05-20 06:46:37 815瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
2025年5月,NVIDIA重磅發(fā)布其全新一代自動(dòng)語音識(shí)別(ASR)模型——ParakeetTDT0.6Bv2。該模型具備0.6B參數(shù),采用CCBY4.0商用開源許可協(xié)議,并以實(shí)時(shí)因子(RTF)達(dá)3386的驚人速度刷新行業(yè)紀(jì)錄,標(biāo)志著語音AI進(jìn)入一個(gè)全新的高性能、低延遲時(shí)代。1.核心優(yōu)勢(shì)強(qiáng)大模型規(guī)模:600M參數(shù)的編碼解碼結(jié)構(gòu),結(jié)合FastConformer與TransducerDecoderTransformer(TDT)架構(gòu)。極速處理能力:在NVIDIA硬件上,能在1秒內(nèi)轉(zhuǎn)錄60分鐘音頻,速度超過多...
2025-05-07 06:57:10 2239瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
日常工作中面對(duì)各類的作業(yè),如何通過工程化的設(shè)計(jì),充分利用LLM的邏輯推理能力,是AI思維的最直接體現(xiàn)。今天開始小編將帶著大家,遵循AI思維來解決日常作業(yè)中的各種問題。今天探討的實(shí)際場(chǎng)景是語料質(zhì)量評(píng)估。在垂類應(yīng)用或者RAG應(yīng)用,將企業(yè)知識(shí)或者領(lǐng)域知識(shí)轉(zhuǎn)化為語料是最為關(guān)鍵的一環(huán),但是如何來確定語料的質(zhì)量作為關(guān)鍵。LLM的訓(xùn)練過程中因?yàn)槠漕A(yù)訓(xùn)練能力與困惑度(PPL)相關(guān),因此可以從不同的數(shù)據(jù)來源中分別提取困惑度排名...
2025-04-22 07:24:37 788瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
MCP正在成為一種標(biāo)準(zhǔn),可幫助開發(fā)人員構(gòu)建AI系統(tǒng),使這些系統(tǒng)能夠與其他外部應(yīng)用程序進(jìn)行有效通信。Microsoft最近宣布將MCP集成到其CopilotStudio中,以簡(jiǎn)化AI應(yīng)用程序和代理訪問工具的方式。此外,OpenAI還宣布在其產(chǎn)品中支持MCP,例如AgentsSDK和ChatGPT的桌面應(yīng)用程序。封面的圖片很直觀的闡述了MCP,它是一種開放協(xié)議,MCP是一個(gè)開放協(xié)議,用于標(biāo)準(zhǔn)化應(yīng)用程序向大語言模型提供上下文的方式。MCP由Anthropic公司在2024年底推...
2025-04-10 06:28:30 2103瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
Picovoice首席執(zhí)行官AlirezaKenarsari指出,“picoLLM是Picovoice深度學(xué)習(xí)研究人員和量產(chǎn)工程師共同努力的成果。前者研究出X位量化算法,而后者構(gòu)建了跨平臺(tái)的LLM推理引擎。目的還是在于將LLM遍及到任何設(shè)備且將控制權(quán)交還給企業(yè)”。picoLLMInference可以免費(fèi)使用,沒有任何使用限制。無論是在概念驗(yàn)證上工作,還是為數(shù)百萬用戶提供服務(wù)。只需幾行代碼即可部署。注:其余的產(chǎn)品線有非商用免費(fèi)版,也有收費(fèi)版1.認(rèn)識(shí)量化(Quantiz...
2025-03-27 09:30:38 1395瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
GPT4o收取170個(gè)Token來處理在高分辨率模式512x512的圖塊。在0.75個(gè)tokensword的比例下,說明一張圖片價(jià)值約為227個(gè)Token單詞。170是一個(gè)奇怪的具體數(shù)字,OpenAI在其定價(jià)中使用“20美元”或“0.50美元”等整數(shù),或使用2和3的冪作為其內(nèi)部尺寸。為什么在這種情況下選擇像170?OpenAI選擇170,若不是作為某種神秘定價(jià)策略的一部分,而圖像圖塊實(shí)際上真的被表示為170個(gè)連續(xù)嵌入向量??Transformer模型對(duì)向量進(jìn)行操作,而不是離散To...
2025-03-17 01:29:33 2041瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
泛AI架構(gòu)設(shè)計(jì)這個(gè)專欄主要關(guān)注圍繞著AI運(yùn)用于實(shí)際的業(yè)務(wù)場(chǎng)景所需的系統(tǒng)架構(gòu)設(shè)計(jì),包括業(yè)務(wù)數(shù)據(jù)治理、模型訓(xùn)練與管理、模型部署與調(diào)度。整體基于云原生技術(shù),旨在通過開源領(lǐng)域的LLMOps或者M(jìn)LOps技術(shù),充分運(yùn)用低代碼平臺(tái)構(gòu)建高性能、高效率和敏捷響應(yīng)的AI中臺(tái)。1.AI架構(gòu)挑戰(zhàn)上面幾節(jié)從GPU的知識(shí)點(diǎn)入手,清晰的介紹了GPU原理、構(gòu)造以及運(yùn)算模型。有了初步的認(rèn)知之后,回到最原始的AI需求,來看看其對(duì)于基礎(chǔ)架構(gòu)的要求。AI最早于19...
2025-03-05 11:04:54 2440瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.KAN這種新型的網(wǎng)絡(luò)架構(gòu)的核心思想基于由柯爾莫哥洛夫阿諾德表示定理,它被寄予期望能夠替代多層感知器。MLP在節(jié)點(diǎn)(“神經(jīng)單元”)上具有固定的激活函數(shù),而KAN在邊上(“權(quán)重”)具有可學(xué)習(xí)的激活函數(shù)。KAN根本沒有線性權(quán)重—每個(gè)權(quán)重參數(shù)都被參數(shù)化為一元的splinefunction。大白話的意思就是:KAN中的每個(gè)激活函數(shù)不是在每個(gè)節(jié)點(diǎn),而是在每條邊上。由一個(gè)一元函數(shù)(univariatefunction)組成,這些函數(shù)本身也是參數(shù)。意味著...
2025-02-25 12:58:45 1962瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大模型技術(shù)論文不斷,每個(gè)月總會(huì)新增上千篇。本專欄精選論文重點(diǎn)解讀,主題還是圍繞著行業(yè)實(shí)踐和工程量產(chǎn)。若在閱讀過程中有些知識(shí)點(diǎn)存在盲區(qū),可以回到如何優(yōu)雅的談?wù)摯竽P椭匦麻喿x。另外斯坦福2024人工智能報(bào)告解讀為通識(shí)性讀物。若對(duì)于如果構(gòu)建生成級(jí)別的AI架構(gòu)則可以關(guān)注AI架構(gòu)設(shè)計(jì)。記得在《重新審視神經(jīng)網(wǎng)絡(luò)》這篇文章中提及,任何人都可以構(gòu)建自己心目中的神經(jīng)網(wǎng)絡(luò)。在Transformers、Mamba、KAN之后,長(zhǎng)短期記憶(LSTM)...
2025-02-17 07:53:00 2349瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大型語言模型(LLM)正在極大地影響AI研究,引發(fā)了關(guān)于迄今為止發(fā)生了什么變化以及如何塑造該領(lǐng)域未來的討論。為了澄清這些問題,有研究人員分析新的數(shù)據(jù)集,其中包含16,979篇與LLM相關(guān)的arXiv論文,重點(diǎn)關(guān)注2023年與20182022年相比的最新趨勢(shì)。首先研究人員觀察到LLM研究越來越多地影響著社會(huì),這從計(jì)算機(jī)和社會(huì)arXiv中LLM論文提交量增長(zhǎng)20倍可以看出。大量新作者來自非計(jì)算機(jī)的NLP領(lǐng)域,推動(dòng)了各個(gè)學(xué)科擴(kuò)展。其次,令人驚訝的是...
2025-02-06 15:41:13 2137瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.快速總覽研究人員提出了一種新穎的位置編碼方法,稱為上下文位置編碼(下文稱之為CoPE),它有別于基于標(biāo)記的傳統(tǒng)位置編碼范式。它以上下文依賴的方式測(cè)量位置,在按位置尋址時(shí)會(huì)更加自由它在如下的任務(wù)中獲得不錯(cuò)的收益:FlipFlop,SelectiveCopy,Counting,LanguageModeling,andCodeModelingtasks它優(yōu)于現(xiàn)有方法,尤其是在域外泛化場(chǎng)景它有可能改善其他領(lǐng)域的編碼,例如視頻和語音。在這些領(lǐng)域,基于Token位置的編碼不太合適...
2025-01-23 09:08:27 2038瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
EmbeddingsEmbeddings會(huì)分為兩個(gè)章節(jié),前部分主要還是放在常規(guī)方法總結(jié),后者主要放在神經(jīng)網(wǎng)絡(luò)技術(shù)。其實(shí)這個(gè)英文單詞不難理解,就是將對(duì)象用數(shù)字標(biāo)識(shí)描述。其實(shí)一直糾結(jié)是否要講述這個(gè)話題,因?yàn)榭缮羁蓽\。若要用一句話概括,就是給輸入分配一個(gè)數(shù)字標(biāo)識(shí),可以是一個(gè)整數(shù)數(shù)值也可以是一個(gè)向量。不過最重要的目的是在模型訓(xùn)練的過程中能夠高效且有效的學(xué)習(xí)參數(shù)。這里需要解釋下向量,例如apple可以使用三維的向量[0.95,0.23,0.2...
2025-01-14 12:44:10 2250瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.快速總覽研究人員提出了一種新穎的位置編碼方法,稱為上下文位置編碼(下文稱之為CoPE),它有別于基于標(biāo)記的傳統(tǒng)位置編碼范式。它以上下文依賴的方式測(cè)量位置,在按位置尋址時(shí)會(huì)更加自由它在如下的任務(wù)中獲得不錯(cuò)的收益:FlipFlop,SelectiveCopy,Counting,LanguageModeling,andCodeModelingtasks它優(yōu)于現(xiàn)有方法,尤其是在域外泛化場(chǎng)景它有可能改善其他領(lǐng)域的編碼,例如視頻和語音。在這些領(lǐng)域,基于Token位置的編碼不太合適...
2025-01-03 14:10:21 2738瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
1.Token在繼續(xù)前行之前,需要先停下來澄清下Token這個(gè)詞,以及如何將原始的語料轉(zhuǎn)化為Token,在細(xì)究背后的原理之后會(huì)更加優(yōu)雅的理解大模型。任何的資訊都可以生成語料,而這些語料需要被機(jī)器理解以及供后續(xù)的模型訓(xùn)練,那么最常見的做法是將一段文字先切片,然后一一對(duì)應(yīng)的轉(zhuǎn)化為數(shù)字或者向量輸入模型。通常而言有三種類型的分詞法:基于單詞、字符以及子詞的分詞法。單詞和字符這里就不解釋,字詞法運(yùn)用得最為廣泛,也是最為主...
2024-12-25 12:22:59 3010瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大模型技術(shù)論文不斷,每個(gè)月總會(huì)新增上千篇。本專欄精選論文?重點(diǎn)解讀,主題還是圍繞著行業(yè)實(shí)踐和工程量產(chǎn)。若在某個(gè)環(huán)節(jié)出現(xiàn)卡點(diǎn),可以回到大模型必備腔調(diào)?或者LLM背后的基礎(chǔ)模型?新閱讀。而最新科技(Mamba,xLSTM,KAN)?則提供了大模型領(lǐng)域最新技術(shù)跟蹤。若對(duì)于具身智能感興趣的請(qǐng)移步具身智能專欄?。技術(shù)宅麻煩死磕AI架構(gòu)設(shè)計(jì)。當(dāng)然最重要的是訂閱“魯班模錘”。1.RAG檢索增強(qiáng)生成(RAG)是一種通過集成文檔檢索系統(tǒng)來...
2024-12-17 13:10:00 2093瀏覽 0點(diǎn)贊 0回復(fù) 0收藏