大模型開發理論與技術——大模型應用體系梳理,對大模型應用整體認識 原創
“ 大模型技術開發是一個復雜的領域,我們需要對其形成基礎的認知體系,才能知道我們在做什么以及怎么做。
隨著對大模型技術應用的理解加深,以及和身邊朋友和同事的交流,最近發現一個問題,很多人對大模型技術和應用并沒有一個整體的認識;而且由于大模型屬于一個新興領域,也因此產生了很多新的概念和名詞,所以這也間接導致了很多人認為大模型很難很復雜。
所以,今天作者就從個人理解的角度對整個大模型體系進行梳理;雖然并不一定完全正確,也可能并不完善,但對在學習大模型的朋友來說也算是一個參考。
大模型應用和體系梳理
要想了解和學習大模型的技術和應用,我們首先需要明確兩個概念,大模型技術和大模型應用技術。
大模型技術
大模型的基本概念是一個基于深度學習神經網絡實現的一個數學模型,其本質是通過數學的方式來模擬人類大腦的學習和思考方式,所以被稱為人工智能。
所以,大模型技術的核心是數學,而編程只是通過計算機技術來實現這個數學模型;因此大模型技術的核心是以數學為基礎,以強化大模型的“智能性”為目標;所以與大模型相關的技術都是怎么提升大模型的“智慧”;不論是機器學習,還是深度學習,神經網絡(架構),還是反饋學習,強化學習,MoE(混合專家模型),訓練,微調;亦或者其它我們聽過或沒聽過的高大上的技術。
而且由于大模型本身能力的問題,因此在不同的應用場景下需要開發適合不同場景的模型;比如說根據任務分類有生成式模型,推理式模型,判別式模型,分類模型,數據分析模型等等為了解決一系列任務而產生的模型。
而作者把這方面的技術,統稱為大模型的能力開發,簡單來說就是怎么把模型做得更好,更強。
大模型技術經過這兩年的快速發展,其功能越來越強大,應用場景也越來越多,雖然過程中依然存在很多問題,但這是新技術發展過程中必須要面對的問題。而且很多問題在純粹的技術理論和研究中是無法發現的,而在具體的應用場景中就會出現各種各樣的問題。
這就是應用倒逼技術的發展,因此技術和應用是相輔相成的,技術離了應用沒有用武之地,應用離了技術也成了空中樓閣。
大模型應用技術
那什么是大模型應用技術呢?
大模型技術解決的是怎么把大模型做的更好的問題,而大模型應用技術解決的是怎么把大模型用好的問題。
而關于大模型應用技術有哪些?
其實大模型應用技術說起來好像有很多,但事實上無法就以下幾種:
- 大模型特性應用
- 大模型生成-AIGC
- 大模型增強-RAG
- 大模型擴展-Agent
大模型特性應用
大模型特性應用相對比較簡單,比如說分類模型;包括計算機視覺的圖像分類和基于語言的情感分類等,比如說好評和差評等。
大模型生成
大模型生成其實也比較簡單,就是根據用戶的要求和案例,來生成符合用戶目標的內容,比如說文字生成,圖像生成,視頻生成等等。
而從技術上來說,大模型內容生成核心主要由兩個,一個是大模型本身的能力,這個就是上面大模型技術需要解決的問題;第二個就是提示詞,用來激發大模型的潛力,讓大模型生成更好更符合用戶目標的高質量內容。
比如說小參數模型一般情況下沒有大參數模型的生成效果好。
大模型增強
RAG檢索增強是為了解決大模型的天生缺陷,因為大模型的知識和能力并不是實時更新的,每次都需要進行重新訓練或微調;而且大模型還存在一定的幻覺,因此需要通過外部知識增強的方式,讓大模型能夠處理實時性數據和減少幻覺問題。
大模型擴展-Agent
之所以叫大模型擴展的原因就是因為大模型雖然有推理和思考以及生成的能力,但大模型有一個很大的缺陷就是無法使用外部工具;但在具體的應用場景中,很多事情是需要借助外部工具來實現的,比如說你餓了點外賣需要借助外賣平臺。
大模型同樣如此,雖然現在隨著大模型能力的增強,它具備了基本的思考和規劃能力;但它依然無法使用外部工具,所以通過Agent也就是智能體技術來給大模型安裝手和腳,讓它能夠使用外部工具來更好更高效的解決問題。
比如說讓大模型幫你制定一個旅行路線,那么它就可以通過自主規劃,去設計路線,然后通過第三方平臺訂票,訂房,訂車等等。
開發工具
前面說了大模型技術和大模型應用技術的基本理論,而這些技術又有哪些具體的開發框架和工具呢?
大模型技術開發目前市面上有很多開發框架,因為大模型行業標準還沒有完全定性,各家模型公司都想搶著占領制高點制定行業規則;但目前來看還處于百家爭鳴的時代。
而目前從技術開發上來說,大模型技術開發主要有Meta開發的pytorch開發框架和谷歌的Tensorflow框架;當然還包括其它一些開發框架,感興趣的可以自己去了解。
而從技術理論上來說,有影響最大的Transformer架構和比較經典的RNN,CNN,Gan生成對抗網絡等;包括國內Deepseek提出的MoE專家模型等。
當然,現在更加主流的開發方式是把多種模型架構相結合,在不同的地方使用不同的架構。
而大家在學習的時候應該選擇其中一種框架和架構進行學習,當你學會其中一種架構之后,其它的就能一法通萬法通了。
大模型應用技術的開發工具
關于大模型應用技術的開發就更加復雜了,不同的協議和技術不斷被提出;比如說openAI公司提出的Function call,現在比較火的MCP協議,以及谷歌提出的A2A協議等Agent開發協議。
而關于RAG檢索增強也經過多個版本的迭代:
- 基礎階段(Naive RAG)
- 高級階段(Advanced RAG)
- 模塊化階段(Modular RAG)
- 智能體RAG (Agentic RAG)
總之,大模型技術和大模型應用技術的發展還處于一個快速迭代和驗證的過程;而想從事大模型領域的人,應該盡快選擇其中的一個細分領域作為切入點;然后根據自己能力和興趣選擇合適的方向。
本文轉載自??AI探索時代?? 作者:DFires
