何愷明再次開宗立派!開辟了生成模型的全新范式——分形生成模型FractalGenerativeModels,首次使逐像素生成高分辨率圖像成為可能,論文名字依舊延續以往的大道至簡風格。團隊將生成模型本身抽象為可復用的“原子模塊”。通過遞歸地在生成模型中調用這些原子生成模塊,可以構建出一種自相似的分形架構。其靈感源于數學中的分形思想。它相當于一個粗糙或零碎的幾何形狀分成數個部分,每一部分都(至少近似地)是整體縮小后的形狀...
2025-02-26 11:59:41 1860瀏覽 0點贊 0回復 0收藏
7B大小的視頻理解模型中的新SOTA,來了!它就是由達摩院出品的VideoLLaMA3,以圖像為中心構建的新一代多模態視頻語言模型。在通用視頻理解、時間推理和長視頻理解三個核心維度進行評估的過程中,VideoLLaMA3均取得優異成績,超越多數基線模型。不僅如此,適用于端側的2B大小的VideoLLaMA3,在圖像理解上的表現也是較為出色。在涵蓋文檔圖表場景文本理解、數學推理、多圖像理解和常識問答等多個維度的基準測試,如在InfoVQA中超...
2025-02-14 13:02:21 2256瀏覽 0點贊 0回復 0收藏
終于!終于!Claude4被曝將在未來幾周內發布!高亮重點,最新的它采取了一個與之前模型路線不同的辦法:是個混合型大模型。簡單來說,就是既帶有推理能力,會使用更多的算力來思考和解決難題;在面對簡單問題的時候,又能像傳統大模型一樣短平快地輕巧處理,無需多費不必要的功夫。怎么樣,聽起來是不是和昨天奧特曼透露的GPT5非常類似(doge)。都是不再把傳統通用模型和推理模型分開推出,直接融合在一起。據透露,Anthropic...
2025-02-14 12:58:41 1975瀏覽 0點贊 0回復 0收藏
關乎當紅炸子雞DeepSeek,奧特曼最新觀點出爐:對DeepSeek的出現并不意外,而且類似的情況會越來越多。這就是奧特曼在最新一期《泰晤士報》科技播客節目中所提及的內容之一。并且在被問及是否擔心OpenAI會成為AI界的Napster(首個P2P音樂共享平臺,后因商業壓力以失敗告終)時,他表示:唯一不讓這種事發生的方法就是每天都為此擔心。我覺得這種事不會發生在我們身上的原因就是我們一直都在為此感到壓力。是有一種沒有壓力就沒...
2025-02-13 16:46:49 1770瀏覽 0點贊 0回復 0收藏
DeepSeekR1火遍海內外,但推理服務器頻頻宕機,專享版按GPU小時計費的天價成本更讓中小團隊望而卻步。而市面上所謂“本地部署”方案,多為參數量縮水90%的蒸餾版,背后原因是671B參數的MoE架構對顯存要求極高——即便用8卡A100也難以負荷。因此,想在本地小規模硬件上跑真正的DeepSeekR1,被認為基本不可能。但就在近期,清華大學KVCache.AI團隊聯合趨境科技發布的KTransformers開源項目公布更新:支持24G顯存在本地運行DeepSee...
2025-02-12 16:06:09 2494瀏覽 0點贊 0回復 0收藏
“比Sora還震撼”,?AI可以實時生成游戲了!谷歌DeepMind打造出了首個完全AI驅動的實時游戲引擎——GameNGen。在單個谷歌TPU上,它以每秒20幀模擬起了經典射擊類游戲DOOM(毀滅戰士)。所有游戲畫面都是根據玩家操作,與復雜環境進行交互,實時生成。也就是說你走進一道門之前,門后的內容還不存在。質量不輸事先存儲的那種,能“以假亂真”,人類評估者都難以察覺。各種操作都能絲滑轉換:GameNGen的背后是大家熟悉的擴散模型...
2024-08-29 13:37:43 2342瀏覽 0點贊 0回復 0收藏
足足等了四年,《黑神話:悟空》,終于來了!但我們上班的“嗎嘍”玩不著,于是靈光一閃,不妨用AI的方式來解猴癮——用AI給《黑神話:悟空》生成一個宣傳片。說干就干。我們以官方的最新宣傳片做模板,小伙伴們可以先欣賞一波:《黑神話:悟空》最終預告我們的操作方式是這樣的——截取最新宣傳片中的多個關鍵幀,然后用智譜AI的清影(免費、無限次)生成視頻片段,最終將它們拼接到一起。操作上并沒有什么難度,等待時長也是...
2024-08-21 09:17:27 2546瀏覽 0點贊 0回復 0收藏
只用不到10%的訓練參數,就能實現ControlNet一樣的可控生成!而且SDXL、SD1.5等StableDiffusion家族的常見模型都能適配,還是即插即用。同時還能搭配SVD控制視頻生成,動作細節控制得精準到手指。在這些圖像和視頻的背后,就是港中文賈佳亞團隊推出的開源圖像視頻生成引導工具——ControlNeXt。從這個名字當中就能看出,研發團隊給它的定位,就是下一代的ControlNet。像大神何愷明與謝賽寧的經典大作ResNeXt(ResNet的一種擴展...
2024-08-19 09:35:49 2293瀏覽 0點贊 0回復 0收藏
一口氣生成2萬字,大模型輸出也卷起來了!清華&智譜AI最新研究,成功讓GLM4、Llama3.1輸出長度都暴增。相同問題下,輸出結果直接從1800字增加到7800字,翻4倍。要知道,目前大模型的生成長度普遍在2k以下。這對于內容創作、問題回答等都存在影響,可能導致模型回答問題不全面、創造性降低等。該研究由智譜AI創始人、清華大學教授李涓子和唐杰共同領銜。論文及代碼都已放在GitHub上開源。有網友已經搶先體驗。LongWriterllama3.1...
2024-08-15 13:04:16 2529瀏覽 0點贊 0回復 0收藏
哎鴨,鴨鴨摔倒了!鴨鴨是真的,摔跤是真的,但端的咖啡和端咖啡的手,是AI給p上去的。△還好手里的咖啡只灑了億點點來自一個開源項目,VideoDoodles,這兩天在外網上的討論度直線上升。這項目妙就妙在,能給視頻加上手繪風格的涂鴉,可可愛愛的也行,奇奇怪怪的也行。就跟人工一幀一幀畫上去的沒差。這對目前市場上大多數的2D視頻編輯軟件來說,還是比較難的。想要達成同等效果,一般還是得創作者真·一幀一幀畫上去。怪費力氣...
2024-08-15 10:20:11 2504瀏覽 0點贊 0回復 0收藏
馬斯克旗下xAI大模型,出二代了!Grok2測試版發布,小杯Grok2mini已經在??平臺在線可玩。馬斯克還以謎語人的形式,揭曉了困擾大模型圈一個多月的秘密:原來Lmsys大模型競技場上的神秘匿名模型suscolumnr,真身就是Grok2。suscolumnr在排行榜上積累了1萬多人類投票,已經與GPT4o的API版并列第三。在xAI自己的內部測試中,Grok2在常識(MMLU、MMLUPro)、數學競賽問題(MATH)、研究生水平科學知識(GPQA)等領域與其他前沿模型相媲美...
2024-08-15 10:14:16 2178瀏覽 0點贊 0回復 0收藏
繼Devin之后,又一個AI軟件工程師被刷屏了——它叫Genie,號稱目前地表最強,已經可以像人一樣思考和行動了!那么這個“地表最強”,到底強到什么程度?先來看下評測分數。在權威榜單SWEBench中,Genie以解決了30.07%問題的成績奪得榜首。(SWEBench是一個用來評估大模型解決現實中軟件問題的基準。)而這個成績可謂是遙遙領先第二名19.27%,解鎖了提升SOTA的最大增幅——57%!至于Genie的實際效果,用團隊的話來說就是:它可以...
2024-08-13 13:41:09 2398瀏覽 0點贊 0回復 0收藏
只需30秒,AI就能像3D建模師一樣,在各種指示下生成高質量人造Mesh。NeRF、3DGaussianSplatting生成的三維重建圖像Mesh效果如下:點云造出精細Mesh:DenseMesh基礎上生成也可以:一張圖,甚至文本描述就足夠了:GitHub已攬星1.9k的MeshAnything項目上新了V2版本,由來自南洋理工大學、清華大學、帝國理工學院、西湖大學等研究人員完成。MeshAnythingV2相比V1,使用了最新提出的AdjacentMeshTokenization(AMT)算法,將最大可生...
2024-08-12 08:27:41 2593瀏覽 0點贊 0回復 0收藏
離大譜!!不看視頻完整版誰知道里面的美少女竟是一位大叔。好嘛,原來這是用了快手可靈團隊的可控人像視頻生成框架——LivePortrait。LivePortrait開源即爆火,短短時間已在GitHub狂攬7.5K星標。還引來HuggingFace首席戰略官ThomasWolf親自體驗:甚至目前仍在HuggingFace全部應用里排在趨勢第一:所以,為啥LivePortrait能夠瘋狂引人關注還得從它讓人眼前一亮的表現說起……讓表情“移花接木”LivePortrait由快手可靈大模型團...
2024-07-24 09:33:17 3060瀏覽 0點贊 0回復 0收藏
文生圖、文生視頻,視覺生成賽道火熱,但仍存在亟需解決的問題。微軟亞洲研究院研究員古紓旸對此進行了梳理,他認為視覺信號拆分是最本質的問題。生成模型的目標是擬合目標數據分布,然而,目標數據分布過于復雜,難以直接擬合。因此,往往需要將復雜的信號做拆分,拆分成多個簡單的分布擬合問題,再分別求解。信號拆分方式的不同產生了不同的生成模型。此外,針對一些熱點問題他也展開進行了分析,一共六大問題,例如diffusion...
2024-07-15 09:22:32 2170瀏覽 0點贊 0回復 0收藏
隨便一張立繪都能生成游戲角色,任意IP快速三維化有新招了!來自清華大學和VAST的研究人員聯合推出了CharacterGen——一種三維風格化人物生成框架。具體而言,CharacterGen采用兩階段生成模式,可在1分鐘內從單圖生成高質量的標準姿態三維人體。目前相關論文已入選計算機圖形學頂會SIGGRAPH2024,且在社區引發了熱烈討論。CharacterGen開源后,已有玩家第一時間將其納入了ComfyUI3D工作流。網友們搓手表示:迫不及待看到構建3D...
2024-07-12 11:47:50 3049瀏覽 0點贊 0回復 0收藏
《思考快與慢》中人類的兩種思考方式,屬實是被Meta給玩明白了。研究人員通過把AI的“慢思考”結果蒸餾進“快思考”,讓Llama2表現提升了257%,變得比GPT4還能打,同時還能降低推理成本。這里的快慢兩種思考方式,指的就是2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼推廣的系統1和系統2——簡單說,系統1是簡單無意識的直覺,速度更快;系統2則是復雜有意識的推理,準確性更強。Meta所做的“蒸餾”,就是用系統2生成數據,然后對用...
2024-07-12 11:44:28 2355瀏覽 0點贊 0回復 0收藏
一段AI生成的體操視頻,引發近百萬網友圍觀,LeCun等一眾大佬還因為它吵起來了。體操表演,emmmm怎么不算呢?通過視頻右上角的水印,此段視頻正是由那個一度被認為是“下一代”文生視頻的DreamMachine(來自LumaAI)生成的。大伙兒看后紛紛坐不住,圍繞此討論的,是AI視頻領域的一個熟悉的話題:AI是否理解物理規律。LeCun直接開麥:視頻生成模型不理解基本物理知識。更不用說人體了。華盛頓大學計算機科學教授PedroDomingos看...
2024-07-01 12:45:28 2519瀏覽 0點贊 0回復 0收藏
只需幾分鐘、一張圖或一句話,就能完成時空一致的4D內容生成。注意看,這些生成的3D物體,是帶有動作變化的那種。也就是在3D物體的基礎之上,增加了時間維度的運動變化。這一成果,名為Diffusion4D,來自多倫多大學、北京交通大學、德克薩斯大學奧斯汀分校和劍橋大學團隊。具體而言,Diffusion4D整理篩選了約81K個4Dassets,利用8卡GPU共16線程,花費超30天渲染得到了約400萬張圖片,包括靜態3D物體環拍、動態3D物體環拍,以及...
2024-07-01 09:52:00 2431瀏覽 0點贊 0回復 0收藏
大模型對話能更接近現實了!不僅可以最多輸入20張圖像,還能支持多達27輪對話。可處理文本+圖像tokens最多18k。這就是最新開源的超長多圖多輪對話理解數據集MMDU(MultiTurnMultiImageDialogUnderstanding)。大型視覺語言模型(LVLMs)的核心能力之一是生成自然且有意義的回答,從而能夠與人類進行流暢的圖文對話。盡管目前開源的LVLMs在如單輪單圖輸入等簡化場景中展示出了不錯的潛力,但在具有長上下文長度,且需要多輪對話...
2024-07-01 09:41:05 2423瀏覽 0點贊 0回復 0收藏