鯰魚效應:DeepSeek打開了AI大模型新序幕,未來大模型技術的方向選擇
從2024年12月份DeepSeek發布了DeepSeek V3開始,整個AI圈內就掀起了一波技術創新式浪潮,核心的因素在于一家在2023年剛注冊成立的初創企業所發布的第一個正式版本模型就直接對標了OpenAI閉源的GPT-4o以及Claude-3.5-Sonnet,更重要的是其訓練階段的成本只有不到600萬美元,是什么概念?
在這之前,普遍的訓練成本都在千萬甚至于上億美元的成本支出,突然出現預訓練大模型在性能上比肩目前最強的GPT-4o,成本上比GPT-4o要節約十幾倍,關鍵在于它還是完全開源的,而GPT-4o的是收費且技術是閉源的,并且目前還沒有哪一個模型能夠做到類似于GPT-o1的推理能力,2025年1月20日DeepSeek-R1的發布無疑是打破了這一技術壁壘,讓整個AI技術領域重新點燃的了新的希望。
在GPT-4上線的時候,當時大模型領域內眾多的大語言模型都在做預訓練模型,也就是說需要不斷的采集數據,從各方收集數據,然后將數據“喂給”大模型,以達到大模型在多種領域內實現相關的思維能力,在預訓練階段需要依賴源源不斷的超大規模數據,以及大模型的開發基本上是以CUDA編程來進行實現的。
在此之前幾乎沒有人挑戰過說繞開CUDA的高級編程方式,而從更加底層的角度來重寫CUDA的很多低級API(也就是PTX編程),放在編程領域內可以理解為:在編寫應用程序時有很多高級編程語言例如Java、Python、C#、Golang,但是考慮到很多高級語言所帶來的性能損耗,例如內存管理、通信機制、CPU調度等等方面的問題,而選擇使用原始的C語言或者二進制編程的方式來重新實現一套語言之下的內存、CPU、通信管理機制。
一出道就站在C位,核心要素算法創新、性能表現、開源屬性
DeepSeek可以說一出道就直接站在了C位,受到了整個行業甚至于全球關注,春節期間無論是在那個地方,都能看到關于AI DeepSeek的種種報道,國家官方媒體也頻頻的發文宣傳對于DeepSeek的推廣,普羅大眾從不知道AI,到了解并使用AI,大家再一次的感受到了AI所帶來的不僅僅是一個趨勢性問題而是一場徹徹底底的社會變革,這種變革所帶來的影響力比移動互聯網的普及程度都更高更快。
相信在過去兩年作為互聯網圈內的朋友都接觸過很多不同的AI產品,在這兩三年中整個全球AI技術的風向標一直是以GPT為首,無論是最開始的GPU-3發布,還是GPT-4o或者sora的發布,都對整個行業帶來了極大的影響,但DeepSeek這波可以說是引領級別的,什么概念?但凡DeepSeek的技術創新是在GPT其他產品中,都不足以撼動那么大的波浪,而由于中國本地技術創新所帶來的AI前沿科技能力,在如今的形勢下,毫無疑問是一場階段性的勝利,當然,技術是無國度的,但是,身為國人就是自豪。
推理模型的技術瓶頸被拉開了新的序幕
在目前的大模型種類可以分為三類:基座大模型、推理模型、多模態模型,而DeepSeek-V3是DeepSeek最先發布的一個大模型,V3是一個基座大模型,而后續發布的DeepSeek R1則是在DeepSeek V3基礎上的推理模型,DeepSeek-R1-Zero 與 DeepSeek-R1 均基于 DeepSeek-V3-Base 訓練,DeepSeek-R1-Distill 版本的模型基于開源模型進行微調,使用 DeepSeek-R1 生成的樣本。
推理模型是OpenAI發布o1、o3模型開創的新范式,在去年 OpenAI推出o1推理模型預覽版的時候,推理模型就成為了行業熱門話題,它和以往問答直接給出答案不同,推理模型會將問題進行分解,然后劃分為幾個步驟來解決,這個過程會花費幾秒甚至幾十秒來分析回答問題,通過思維鏈的方式來反思自己的分析,本質上是自我問答和檢驗,基于思考的思考,認知能力會有一定的提升(這點在最后再聊),這里參考DeepSeek-reasoner會更加直觀。
正如上所說,GPT-o1發布了推理模型之后,OpenAI對外并沒有公布相關的技術細節和實現原理,對于外界來說推理模型的技術是一個瓶頸口,而DeepSeek可以說是第一個打破了推理模型瓶頸的技術創新點,它跳過了監督微調,直接從強化學習開始訓練。
選擇開源模型,硬剛ChatGPT 4-o1模型,引起國內外科技圈的關注
很多媒體都講到說這是中國人自己研發的大模型,從各方面都比美國所主導的AI技術都先進一些,是中美之間科技競賽的勝利,但是,我更想說它是開源技術所帶來的成果,DeepSeek選擇開源其各項數據以及相關論文的理論內容,讓原本在預訓練模型中遇到技術挑戰的人找到了不同的解法,讓原本做AI應用的企業的商業運營成本直線下降,大家可能沒有這種體感,列舉個簡單例子:
很多app產品內部集成了不同的AI大模型應用,其實這里有很多都是調用其它AI大模型的接口,自己產品外部包裝了一層展示界面,然后很多企業都希望有一個足夠好且精準的AI大模型來提升產品的質量,于是很多都會選擇調用OpenAI的開放API,但由于OpenAI是按照Token和調用次數來收費的,這部分收費要么用戶出,要么是企業自己來出,一年少則幾百萬多則幾千萬的投入,而DeepSeek不一樣啊,技術本身是開源的,并且接口調用的價格也極低,很多企業接入了DeepSeek之后,一年節約了幾百上萬千,甚至由此盈利了。
這里多插一句,在過去的幾十年里,從信息化時代,到互聯網時代,再到移動互聯網我們基本都是跟隨的態度,底層的核心技術都是引入的國外廠商或者是國外開源的技術底座,我們更多的是做應用層產品的研發和技術運營的角色,但近幾年從國家戰略上就提出自主創新、國產化的主張,從芯片制造、數據庫技術、操作系統等等都主張自主研發,這也是為什么很多高科技企業會受到了西方抵制?他們肯定不希望也接受不了我國的核心技術能力超過他們,但事實無數次證明,抵制是沒有用的,面對13億人口,人才輩出的大國,總有不甘平凡,勇于超越的時代弄潮兒。
未來AI技術有哪些可能性?
1. 計算量級和模型性能之間存在冪律關系可能會被打破
在過去大家都認為大模型的訓練和所需要的計算量(也就是GPU的算力和內存大?。┦怯袃缏申P系的,也就是說通過增加計算量,無論是使用更強悍的GPU還是增加更長的訓練時間,都可以提高模型的性能,但是事實證明現在可能不需要那么大的計算量也可以訓練出比較高性能的大模型來。
2. 基于思維鏈的推理模型會越來越多,也就是提示詞工程會弱化
使用過DeepSeek之后就會發現,當我們組織一下語言問DeepSeek問題的時候,它不像過去其它的大語言模型直接回答問題,而是基于我們的問題,它自己站在不同的維度來闡述這個問題,再將進一步組織之后的問題去問模型本身,過去,大模型回答問題的精準度很大程度上依賴于提問者的問題,提問的問題越細化、全面、標準,那么回答的就越好,而DeepSeek可以基于我們的問題來發散思考,這樣得到的答案的精準度是非常高的。
3. 基于第二點,進一步聯網并進行全網搜索之后再深度思考能力,也會在今年應用落地
在OpenAI新推出的Deep Research模型已經具備了聯網并深度思考能力,但是目前只針對付費訂閱以及Web版本進行開放,其官網的評測結果中,準確率達到了26%的歷史新高,同時,國內的一些大模型也在發力聯網深度思考能力,目前看到阿里的通義千問也已經具備了聯網搜索,但是無論是OpenAI或者通義千問 對于聯網深度思考能力上都處于初期階段。
4. 小模型的性能會越來越好,大模型和小模型會交替學習
很多大模型由于訓練參數過多,數據集難以維持較大的訓練量,可能會出現小模型在大模型上面不斷迭代,會促進小模型的性能越來越強,而反之,大模型也可能會跟著小模型來學習。
5. 特定領域的專有模型將得到飛速發展,場景落地能力將加快
在過去AI快速發展的兩年,很多企業也意識到做大語言模型的成本實在太高昂,而且整個訓練周期以及效果都存在諸多的風險,倒不如轉入做專用模型,例如做金融領域、醫療領域、法律領域、教育領域等為中心的專用模型,通過以高度專業化的方式來實現更好的商業化落地。
6. DeepSeek V3所帶來的架構創新或許會成為未來主流:MoE、MLA(多頭潛在注意力)、輔助無損負載均衡和多標記預測訓練
在GPT的訓練大語言模型過程中,會將所有的資源算力全部調度起來,全部都用來跑模型訓練,這樣模型本身就會變得更“聰明”,但是需要特別巨大的GPU算力資源,而且需要花費很多的時間和費用成本,而DeepSeek V3 的MoE架構則不是,MoE全稱是Mixture of Experts,它是一種“混合專家”模型。
對比GPT而言,它不需要所有的GPU資源全部運作起來,而是將任務切分為很多小的算力需求,而這些任務整個組合之后就是一個大語言模型所需的整體能力,對于任務而言,有的專注于語言,有的專注于數學,有的專注于文學等等,在訓練過程中每個專家都負責某幾個任務的執行,其它專家經過排序組合之后可以進行休息,這樣GPU算力資源就能夠節省很多,而最終的訓練效果也非常不錯(后面單獨解讀訓練部分的邏輯)。
上面基于專家和任務的分配機制,內部還有一個專用名詞叫MLA(Multi-Head Latent Attention)(多頭潛在注意力),類似于它在閱讀大量的資料之后,首先會歸納重點內容,再從多個不同視角去理解內容,這樣即節約時間效率又高。
本文轉載自??DataForAI??,作者:易程Date
