Newbing為什么與其他生成式AI如此不同
自從用上Newbing后,我就放棄CHATGPT 3.5了。昨天寫完文章后,我又試了下ChatGPT,沒想到去年被封的賬號居然又可以用了,不過只能用3.5版本,要用4.0必須升級到PRO,每個月20美金。于是我沒有嘗試去付款,因為Newbing對我來說已經(jīng)夠用了。
我前幾天發(fā)那篇關(guān)于多個公共大模型回答數(shù)據(jù)庫問題的性能比較的文章后,有個朋友給我留言說用Newbing去和其他通識大模型做PK有點不公平,因為Newbing是一個工程化的系統(tǒng),使用RAG+LLM的方式來提供服務(wù),首先通過搜索查找到相關(guān)知識,再向大模型提問,性能肯定會比其他LLM要好。可能這個朋友是我對比的幾種國產(chǎn)大模型的成員,因此他比較在意我的測試的公正性。事實確實是如此,因為其他大模型提供給我們的接口也是工程化的,不過并沒有微軟做得好,我也只能暫時這么比較了。
從上面的文字,很多朋友可能已經(jīng)意識到了,通識大模型直接用于運維支撐,其性能是不足的,必須通過本地知識庫的嵌入才能獲得比較好的效果。這是因為在專業(yè)技術(shù)領(lǐng)域,通識大模型往往缺乏足夠的專業(yè)領(lǐng)域知識,因此對于很多問題,它們只能照貓畫虎去瞎猜,性能肯定是不足的。
圖片
從去年11月份OpsEval發(fā)布運維大模型基準(zhǔn)來看,通識大模型在OPS領(lǐng)域的表現(xiàn)不如人意。最主要的問題是幻覺問題,我們可以看出GPT 4.0的3-shot Cot這個標(biāo)志Few shot思維鏈的指標(biāo)也僅僅為88.70,只比Yi-34B-Chat這種參數(shù)規(guī)模小得多的模型搞出不到10%。這種水準(zhǔn)無法作為權(quán)威提供服務(wù),只能給人以參考。而對于Zero-shot的性能,就更加可憐了。Yi-34B僅僅為65%,也就是說大約1/3的大模型沒有學(xué)習(xí)過的知識的回答是錯誤的。通識大模型對于需要精準(zhǔn)回答的運維領(lǐng)域來說是能力不夠的。
大模型因為訓(xùn)練成本昂貴并且無法增量訓(xùn)練(增量只能做微調(diào)),因此想要把層出不窮的新知識不斷的添加到模型中去是不大現(xiàn)實的。通過RAG做本地知識庫的向量嵌入,或者通過AutoPrompt來優(yōu)化提問是彌補這一缺陷的有效辦法,目前已經(jīng)被大量的商用。
我前陣子也說過,對于搞技術(shù)的人來說,擁有一個能夠隨時給大家提供幫助的知識庫十分重要。雖然說目前Newbing已經(jīng)能夠給我提供很好的幫助,不過在很多時候我依然覺得擁有一個私有知識庫是十分必要的。
圖片
從去年開始我就一直在關(guān)注著螞蟻的開源項目DB-GPT,這個在12GB顯卡上就可以進(jìn)行推理的大模型框架是DBA建立自己私有智能助理的不錯的選擇。經(jīng)過一年的迭代,這個開源項目已經(jīng)較為成熟了,對于想做這方面工作的朋友,所需的就是做自己的知識庫就行了。