這兩天重讀了一篇很有趣的論文,《Effectoftheinitialconfigurationofweightsonthetrainingandfunctionofartificialneuralnetworks》(https:arxiv.orgpdf2012.02550)。它非常直白的展示了人工神經網絡訓練過程中的初始權重配置對網絡功能和性能的影響。通俗來講,神經網絡就像是一臺復雜的機器,它內部有很多“開關”(也就是權重),這些開關從一開始就有隨機的初始設置。在訓練過程中,這些開關的設置會一點一點調整,目標...
想象一下,一種專門為某個人量身打造的藥物,能夠精確修復他體內導致疾病的那個小小的基因“印刷錯誤”。這聽起來像是科幻小說里的情節,但如今,它正悄然照進現實。最近,一名叫KJ的嬰兒成為了這個醫學奇跡的主角。他患有一種罕見的遺傳性肝臟疾病,由于基因突變,身體無法正常分解蛋白質,導致有毒物質氨在體內累積,嚴重威脅著他的大腦發育和生命健康。傳統的治療方法對于KJ這樣嚴重的病例往往效果有限,預后不佳。然而,來...
2025-06-10 06:59:33 674瀏覽 0點贊 0回復 0收藏
在大語言模型(LLM)的進化之路上,我們熟知兩大基石:預訓練,如同海量知識的灌輸,讓模型博聞強識;微調(無論是監督學習還是強化學習),則更像行為塑造,教會模型如何“得體”地回應,比如習得特定的對話風格。這兩種方式,都在潛移默化中改變著模型的“內在記憶”——也就是那些神經網絡的參數。一種LLM缺失的重要學習方式——“系統提示學習”?反觀人類的學習,似乎還存在一種更為直接、更為“顯性”的模式。想象一下,...
2025-05-28 06:22:20 585瀏覽 0點贊 0回復 0收藏
已有的大模型能否通過PromptEngineering達到O1類似的推理水平?我見過很多嘗試,在個別案例上有觀察到驚艷的推理效果,但大多沒有普遍提升已有大模型的推理能力。今天看到這個方法,感覺是通過PromptEngineering可以有效普遍提升大模型的推理能力。以下就是那個MagicPrompt,先睹為快。作者準備了50道需要長推理過程的問題,分別測試幾種場景:ClaudeSonnet+上述PromptClauseSonnetLlama3.18B+上述PromptLlama3.18BChatGPT4o+上...
2025-05-14 06:55:34 578瀏覽 0點贊 0回復 0收藏
大語言模型(LLM)的飛速發展正深刻改變著我們與信息和技術交互的方式(想想大家有多久不用傳統搜索引擎了)。它們展現出的能力令人矚目,但要驅動它們超越模仿,在復雜推理、規劃和解決未知問題等層面達到更高的“智能”水平,傳統的預訓練(Pretrain)和監督微調(SFT)范式顯得力有不逮。強化學習(RL),特別是結合人類或規則反饋的RLHFRL,已成為關鍵的引擎,推動LLM智能向更高層級躍遷。RL的核心在于賦予模型一種“目標導...
2025-04-28 00:25:51 1116瀏覽 0點贊 0回復 0收藏
人工智能(AI)快速發展,模型訓練是核心環節,優化器扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。多年來,AdamW優化器一直是優化器的標桿,因其穩定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規模的不斷擴大,訓練成本和時間的需求也在激增,這讓人們開始尋找更高效的優化方法。近期,一種名為Muon的優化器算法悄然出現(源代碼????https:github.comKellerJordanMuon????),...
2025-04-17 06:40:28 1205瀏覽 0點贊 0回復 0收藏
DeepSeekR1在數學推理、問題解決等復雜任務上的表現令全世界矚目。它在AIME2024等高難度數學測試中取得了79.8分好成績(OpenAIo11217得分79.2)。而這一切的背后,有一個關鍵技術功不可沒——GroupRelativePolicyOptimization(GRPO),一種基于強化學習的優化算法。盡管GRPO教會R1高智商推理,但有研究人員發現,它存在一些缺陷,比如它會導致模型生成冗長的錯誤回答,或者更傾向于解決簡單問題而忽略難題。大家在用DeepSeekR1...
2025-04-07 00:08:13 2059瀏覽 0點贊 0回復 0收藏
開源世界的期待與漣漪人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演著特殊的角色。回想Llama2的橫空出世和開源姿態,極大地降低了高性能大模型的門檻,在全球范圍內點燃了研究和應用的熱情,催生了無數創新,其影響力至今仍在激蕩。相較之下,Llama3的發布雖然帶來了性能提升,但在社區看來,似乎少了些Llama2那樣的顛覆性震撼,更像是一次穩健但略顯保守的迭代。在這樣的背景下,Llama4的發布承載了社區極高的期待。4月6日...
2025-04-07 00:04:09 1714瀏覽 0點贊 0回復 0收藏
人工智能(AI)快速發展,模型訓練是核心環節,優化器扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。多年來,AdamW優化器一直是優化器的標桿,因其穩定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規模的不斷擴大,訓練成本和時間的需求也在激增,這讓人們開始尋找更高效的優化方法。近期,一種名為Muon的優化器算法悄然出現(源代碼????https:github.comKellerJordanMuon????),...
2025-03-25 00:43:07 1963瀏覽 0點贊 0回復 1收藏
2月28日OpenAI發布了GPT4.5,OpenAI稱這是其迄今為止最大的預訓練模型。我有點期待GPT4.5會帶來令人振奮的突破。然而,從官方披露的信息以及實際表現來看,GPT4.5沒有展現出超越前代模型的顯著優勢。有點“強弩之末”的感覺。可能再次驗證了業界比較廣泛的認知:“單純擴大模型參數規模,對性能提升的邊際效應正在遞減”。接下來分幾個章節,談談我的感受。期待與現實的落差GPT4.5被OpenAI定位為“ourlargestandbestmodelforcha...
2025-03-13 06:57:59 2874瀏覽 0點贊 0回復 0收藏
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老師在教一個學生寫作文。傳統的強化學習方法(比如PPO)會給學生的每一句話打分,告訴他這句好,那句不好。但GRPO不這么做,它更像是一位“佛系”老師:不看過程,看結果:GRPO不會逐句指導學生,而是讓學生一口氣寫完幾篇不同的作文(一組作文)。幾篇作文一起比較:然后,老師把這幾篇作文放在一起比較,根據一個預先定好的規則(基于規則的獎勵模型),評判...
2025-02-28 12:15:57 3847瀏覽 0點贊 0回復 0收藏