我們需要學會對大模型祛魅,大模型沒有大家想象中的那么復雜 原創
“ 大模型雖然看起來很復雜,但我們只要具備工具思想,那么就可以輕松地玩轉大模型?!?/strong>
在對大模型的了解和應用過程中發現一個問題,就是很多人對大模型抱著神秘和高大上的想法;認為搞大模型的都是技術大拿或者高學歷的精英人才,甚至有些人會認為大模型無所不能。
但事實上,大模型沒有大家想象中的那么神秘和復雜;大模型也有自己的能力邊界,它也無法做到超出它能力范圍的事;而且現在大模型也存在各種各樣的問題,否則大模型技術就不再需要發展了。
大模型祛魅
首先從純粹的技術理論來講,大模型本身就是一個模仿人腦神經網絡的數學模型;通過統計和概率學的方法來模仿人腦的學習過程,雖然其中提出了各種各樣的模型架構,但本質上來說都是數學問題。
只不過其主要是基于向量和多維矩陣這個數學工具來進行相似度計算,通過這種方式來表示數據之間的關系;以此來完成語義,圖片理解和生成。
從大模型的運行過程上來說,大模型主要有理解和生成兩個步驟;對應用人員來說,大模型就是一個黑箱,有一個輸入口和一個輸出口;大模型接受用戶的輸入并理解用戶意圖,這個過程就是理解過程;而大模型在理解用戶意圖之后,通過模型參數來生成用戶所需要的東西,這個過程就是生成過程。
雖然根據不同的任務場景,有多種執行不同任務的模型類型;但本質上來說都是輸入理解和結果生成的過程;其中包括推理類模型,只不過推理類模型會存在一個“思考”的過程。
不同任務的大模型因為根據不同的任務類型會設計不同的技術架構,其目的就是為了更好的處理任務數據;而除了模型架構的區別之外,還一個就是訓練數據的區別;不同任務的模型,需要使用特定形式或格式的訓練數據。
比如說分類模型需要使用不同分類的數據進行訓練;聊天模型需要使用對話數據進行訓練等;而不同的任務類型,需要使用特定任務或領域的數據進行訓練。
至于模型實現過程中需要使用的損失計算,優化函數,反向傳播,反饋學習,強化學習等技術;基本上都屬于模型通用的技術流程,只不過由于任務的特性可能會進行適當的調整和使用不同的算法來實現。
而從技術開發者的角度來說,使用大模型的能力,基本上就是調用幾個接口就行了;應該說,大模型本身也就一到兩個接口,只不過根據不同的需求,設計不同的提示詞或角色扮演等來約束大模型的輸出。
而那些大模型服務提供商或者一些平臺,它們雖然看似提供了很多功能接口;但這些接口基本上都是它們自己封裝的業務接口,然后背后依然是調用大模型的一個或兩個接口,和大模型沒太大關系。
所以,如果你不是搞模型開發,需要很強的數學和編程功底之外;從應用的角度來說,大模型使用起來很簡單,你給一個輸入,大模型給一個輸出。而本質上就是提示詞的編寫,也就是說在大模型應用中,提示詞才是其中的核心部分。
- 文本生成類(Text Generation)
- 文本理解類(Text Understanding)
- 多模態任務類(Multimodal Tasks)
- 決策與推理類(Decision Making & Reasoning)
- 序列轉換類(Sequence Transformation)
- Embedding模型類
- 強化學習對齊類(RL-Aligned)
只不過,把大模型應用到具體的產品或系統開發中,會延伸出一系列的問題;比如說模型記憶問題,文檔的處理問題,格式化輸出問題,提示詞的優化問題;以及怎么挖掘大模型的潛力,讓大模型在業務中表現得更好,這就需要結合大量的工程化能力來解決。
比如說通過更好的提示詞來激發大模型的潛力,使用RAG技術來增強大模型的知識,使用訓練微調等技術來提升大模型的能力,使用Agent技術來充當大模型的手和腳,使用工作流來串聯功能模塊等等。
本文轉載自公眾號AI探索時代 作者:DFires
