有了大模型的應用經驗之后,再談對大模型的理解 原創
?“ 大模型的本質就是一段有輸入和輸出,并能使用某種算法達到某種目的得計算機程序 ”
在剛開始接觸大模型時,根本不明白大模型是個什么玩意,看著別人給出的定義一臉懵逼。
不論是業內還是網上的文章,對大模型的普遍定義都是擁有巨大參數量和復雜計算的機器學習模型/深度學習模型。
從定義中能夠看出哪些東西?
巨大參數量,復雜計算,機器/深度學習模型。
說句實話,對大部分人來說看了這玩意有什么用,有誰能用自己的話說明白什么是大模型。
所以,對剛開始學習大模型技術的人來說,即使告訴他大模型的作用,概念和實現原理,但對他來說還是七竅通了六竅,就剩下一竅不通。
為什么會出現這種情況?
原因就在于概念和定義是別人在事物的基礎之上,加上自己的理解所下的定義;但你又不理解,因此看了別人的定義也不會真正明白;這就像道理大家都懂,但真正能理解道理的卻沒幾個。
基于應用理解大模型
在剛開始學習大模型的時候,作者一直在嘗試理解大模型的定義,原理,以及訓練和微調的步驟和流程。
然后由于大模型需要龐大的算力支持,而自己又沒有那么多錢來支撐自己購買GPU等算力工具;因此就覺得大模型好牛逼,好復雜。然后就覺得搞大模型好難啊,沒有足夠的資金和技術根本玩不轉。
但經過這段時間從事大模型的應用開發,并隨著時間的推移,遇到的事情也越來越多;然后對大模型的理解也更加的深入,這時才發現大模型原來沒有想象中的那么復雜;當然也沒想象中的那么簡單。
首先,我們不要過度神話大模型,大模型并不是神仙,它還做不到無所不能;其次,大模型是一種技術,本質上是一個工具,其表現的是一種能力。
比如說,文字,視頻,圖片生成能力,也就是AIGC的能力,有些模型你只需要輸入文字,它就可以根據你的要求生成一張圖片或視頻。
既然大模型是人工制造的智能體,既然人都無法做到無所不能;因此,大模型就更不可能做到無所不能了,所以不同的大模型就會像不同的人一樣,擅長不同的領域。
比如有些大模型擅長內容生成,比如有些擅長生成古風的圖片,有些擅長生成二次元圖片等;而有些模型可能更擅長推理規劃,還有的模型擅長回答問題等。
原因是什么?
原因就是不同的大模型采用不同的技術和訓練數據,直接導致它們擅長不同的領域;就像人一樣,不同的人選擇不同的專業,擅長的東西也不一樣。
這就是在之前的文章中所講的大模型的能力問題——你對大模型認知的開始——大模型的能力問題;不同的大模型具有不同的能力。
ok現在我們知道了不同大模型擁有不同的能力,那怎么理解大模型的訓練和微調? 大模型為什么需要訓練?
嚴格來說大模型的訓練叫做學習,大模型的實現原理就是模仿人類的學習能力,讓機器能夠通過學習的方式獲得智能——這個過程叫做機器學習,而隨著技術的發展,技術人員開始通過模仿人類的大腦神經元的方式來模擬人類的學習過程——這個過程叫做深度學習。
而關于學習,學習的方式多種多樣,比如說去學校學習,自己自學等;大模型也是如此。
所謂的監督學習就是告訴大模型一些問題,然后再給它一份答案,讓它自己去觀察和總結其中的原理;而無監督學習就是直接扔給大模型一堆問題,然后讓它自己看,自己學,然后去尋找其中的一些規律,然后下次再碰到類似的問題就知道怎么做了。
這就是大模型訓練的過程,也是學習的過程;只不過這些過程都需要人類幫助機器去實現,而且為了實現這些過程還需要增加很多輔助性的工程,比如損失計算,通過損失函數來讓大模型知道自己的學習效果。
ok ,那現在再來理解什么是大模型,以及大模型的參數?
所謂的大模型,其實就是一個計算機程序,然后這個程序能夠讀取數據,并使用某種方式來對這些數據進行分析,然后總結出相關的規律,并記錄下來。
而其中分析數據的方式叫做算法,記錄下來的規律叫做參數;而由于要在復雜的數據環境中找到規律,因此要記錄很多規律點,所以才導致大模型擁有龐大的系統參數。
這也是為什么大模型被稱為巨大參數量的機器學習模型,從本質上來說它只是一個機器學習模型或者說是深度學習模型;只不過它要學習復雜的數據,因此需要大量的參數進行標識,才導致它成為了一個巨大參數量的機器學習模型。
現在明白了什么是大模型,以及大模型的參數,那么如果讓你實現一個模型應該怎么做?
首先,你要明白這個模型是干什么的,也就是說它應該具備哪些能力? 比如說畫畫的能力。
其次,既然知道了模型應該具備畫畫的能力,那怎么才能讓它學會畫畫呢?
這時就需要去學習和了解計算機視覺相關的知識了,知道圖像的原理,怎么生成,怎么保存,然后用那種算法讓模型學習繪畫的技巧等等。
這時,你再去學習大模型,甚至讓你去開發一個模型,你就能做到有地放矢。
?
本文轉載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/G7mMw_d9qk5urtmiZB19hA???
