你了解大模型的生態體系嗎?大模型從技術到應用的內容梳理 原創
“ 神經網絡技術從理論到應用是一個龐大的體系,我們需要知道的是這個體系是怎么構成的,每一層都有哪些內容 ”
關于大模型我想很多人都會有這樣或那樣的問題,最基礎的就是不知道大模型是什么,技術場景和業務場景分不清楚;也不知道大模型有哪些能力,然后利用大模型能做些什么。
因此,今天我們就來梳理一下大模型體系,從技術到應用之間的關系,以及各個環節所涉及到的技術。
大模型體系——從技術到應用
大家之所以搞不明白大模型,最根本的原因就是對大模型沒有一個完整的認知;所以我們今天從多個維度來了解一下大模型的構成和應用。
神經網絡大模型
首先大模型是指擁有巨大參數量的神經網絡模型,簡單來說大模型就是指神經網絡;而神經網絡是機器學習中的深度學習,通過模仿人類的大腦構造來實現人工智能的一種方式;本質上是一種仿生學。而不論是機器學習,還是深度學習都是實現人工智能的一種方式。
其關系如下圖所示:
了解了神經網絡與人工智能的基本關系,那么我們下面就來詳細了解一下神經網絡模型,也就是大模型。
說一句大家可能覺得是廢話的話——神經網絡只是神經網絡,它只是一門技術。
關于神經網絡的基礎組成可以看之前的文章,???從一個簡單的神經網絡模型開始???;簡單來說由神經元組成的模型就是神經網絡,不論這個模型是簡單還是復雜,是就一個參數還是有一億個參數。
神經網絡就是神經網絡,它不是任何其它的東西,好好理解這句話。
神經網絡與其它技術的結合
神經網絡作為一門技術,那它的作用就是用來解決問題;而作為我們人類交流和理解的主要方式,語言,音視頻就成了神經網絡技術主要的切入場景。
自然語言處理——NLP,計算機視覺——CV,音頻處理——Audio;所以把神經網絡與NLP任務相結合就有了自然語言處理的大模型,比如常見的chatGPT,DeepSeek等;而把神經網絡技術與CV結合的有圖片和視頻模型,比如Sora等。
而為了解決這些任務中的難題,就誕生了多種不同的神經網絡架構,比如Transformer——自注意機制架構,RNN——循環神經網絡架構,CNN——卷積神經網絡架構等。
Transformer和RNN架構常用來解決NLP任務,CNN常用來解決CV任務;當然,現在由于技術的發展,不同的神經網絡架構也能解決其它領域的問題,因此出現了很多混合架構的模型。
比如說,能夠同時處理文章,語音,視頻等任務的模型,被稱作多模態。所以,多模態和單模態是從數據處理的類型進行區分的。
如下圖所示:
上面只是舉了幾個簡單的,也是比較經典的神經網絡模型;當然,現在由于具體的任務類型,又產生了很多新的網絡模型,比如LSTM,Gan網絡等;其實本質上都是為了解決特定問題或某一領域問題設計的架構。
所以,現在理解上面那句廢話,神經網絡只是神經網絡了嗎?
神經網絡只是一種技術,它就是一種由神經元構成的結構體,它和具體的任務沒有關系;而是把神經網絡技術與具體的任務結合再一塊之后,才形成了各種各樣的神經網絡架構和模型。
當有了這些架構之后,神經網絡就有了手段或者說工具,就可以在具體領域中解決實際問題了;但由于每個領域中存在各種各樣的問題,因此就根據不同的問題產生了不同的任務類型;比如說NLP中有情感分類任務,翻譯任務,文本生成,對話任務等。而CV中同樣存在圖片分類,圖像識別等任務。
而這些不同的任務類型,就是利用神經網絡技術與具體的場景相結合而設計的不同的神經網絡架構用來解決的問題。
當然,神經網絡只是一種技術手段,這些任務類型也不是因為神經網絡才出現的;而是這些場景中存在這些任務,然后使用神經網絡作為工具來解決這些問題。
而且,在某些任務中,神經網絡的表現可能還沒有其它機器學習模型效果好,成本低。
所以說,神經網絡并不是萬能的,需要具體問題具體分析。
在這幾種任務場景中,最困難也可以說最復雜的應該就是NLP任務了;原因在于自然語言處理中,涉及到復雜的語義關系和邏輯關系;因此在NLP任務中,還出現了兩種典型的類型,生成模型和推理模型。
比如說大名鼎鼎的DeepSeek的V2/3模型就是典型的生成模型,而R1模型就是典型的推理模型;當然,并不是說生成模型就不具備推理的能力;而是說推理模型在邏輯推理方面經過強化,比如說通過Cot思維鏈的方式來提升模型的推理能力。
當然,目前來看模型的推理能力就像涌現能力一樣,它就是一個黑箱,目前還不知道為什么大模型會具備推理能力。或許就像人類一樣,當你了解基礎的知識體系之后,自然就能夠進行更高層次的思維。
當然,神經網絡與不同任務還有很多結合場景,比如以NLP為基礎的代碼生成模型Claude和一些用來進行數據分析的模型,這個就需要用戶和開發人員不斷的進行挖掘。
以上都是關于神經網絡模型,也就是大模型本身能力的介紹;簡單來說,只要你模型做得好,它就能擁有以上的能力。
但有一個問題就是,怎么把大模型應用到我們的工作和生活中,以此來提升工作和生活的效率。而這就需要大模型擁有一種工具來與外界交互。
雖然說我們可以通過API或聊天窗口或其它方式來使用大模型,但大模型并不具備使用外部工具的能力;簡單來說就是,大模型能力再強,都無法去使用我們制造的工具來解決問題。僅僅只能通過聊天等形式,利用大模型本身的能力,來給我們提一些建議,生成一些文字或圖片。
所以,我們就需要一種方式讓大模型使用外部工具,而這就是Agent技術,一種使得大模型能夠自主和外部環境進行交互的技術,也就是我們常說的智能體。
而大模型是怎么實現Agent功能的呢?
這里就用到了Function call和現在很火的MCP協議,一種讓大模型能夠通過統一的方式去使用外部工具的中間層協議。
還有一種技術叫做RAG技術,原因就在于補充大模型天生的缺陷,數據更新不及時,就類似于給大模型配了一個資料室;讓它能夠從外部資料庫中獲取需要的數據。
學習一門技術,要從基礎理論到具體實踐都要熟悉才能真正做到技術閉環;否則你永遠無法了解技術的本質。
本文轉載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/bLd28xOtXGEfAFfHT7ktYA??
