人工智能應用最大的問題是數據問題,而不是技術問題
隨著人工智能技術的發展,人工智能也從剛開始的聊天模型變成了能夠應用到實際場景中的一項新的技術;而且隨著國家大力發展人工智能技術,人工智能就像二十年前的互聯網技術一樣,充斥著各種機會,但同樣也面臨著各種各樣的挑戰。
但是,以個人從事一段時間的人工智能技術應用,以及個人對人工智能技術的了解來看;人工智能目前在實際應用中所存在的主要問題就是數據問題,而不僅僅只是技術問題。
當然,人工智能技術還需要時間繼續發展,但以解決實際問題出發,目前的人工智能模型需要大量的行業數據做支撐。
人工智能應用所面臨的數據問題
為什么說目前人工智能的應用主要是數據問題?
以目前大模型實際發展情況來看,chatGPT的出現使得大模型技術進入了一個嶄新的時代;而經過這兩三年的發展,大模型技術的范圍也越來越廣;比如視頻,圖片生成,自動化工具等的出現。
隨著今年國內大模型DeepSeek的爆火,其最大的優點并不是解決了應用問題,而是解決了模型的成本問題;其使得中小型企業也有可能訓練和部署自己的專有模型。
但從24年開始,有人提出大模型不應該僅僅停留在理論研究和技術迭代,還需要關注大模型解決實際問題的能力,也就是大模型的應用場景。
但等到真正把大模型切入到具體的應用場景中才發現,現在市面上的模型很難去滿足具體行業或領域的業務需求。而僅僅只能用來搞一些創作類的工作,而且效果也不太好。
其中有一部分原因在于模型本身的問題,還有很大一部分原因就在于數據問題;數據是一切AI的基礎,沒有數據AI技術就像空中樓閣。
舉個具體的例子來說,很多公司基于一些模型服務商做套殼,開發一些應用;但實際操作中才發現,哪些服務商提供的模型都是一些通用模型,無法解決具體領域的問題。
比如,使用文本生成模型做套殼的助手應用,你問它大而泛大問題它可能回答的還不錯;但你要是問它具體領域的問題,它可能就傻眼了。比如你問它你們公司內部的管理制度等,因為缺少相應的數據,因此它就無能為力了。
以上的例子可能并不是很合適,但從技術的本質出發,技術只是技術;它的本質只是一個工具,與任何一個行業都是無關的;比如說互聯網技術即可以應用于新興行業,也可以應用于傳統行業。
而人工智能技術也是如此,但要把技術應用到具體的領域,這時就需要把技術和具體領域相結合;而這個結合的點就是數據。
互聯網行業有互聯網行業的數據特征,傳統工業有其獨特的數據特征;而這也是為什么很多企業選擇自己訓練和微調模型,而不是直接把別人訓練好的模型拿過來用;原因就是因為數據對不上。
要想把人工智能技術應用到某個行業,那么就需要根據行業特性設計符合其特點的模型結構;以及使用大量的行業數據對模型進行定制化訓練。
數據是互聯網時代的石油,同樣也是人工智能時代的血液;所以,在以后越來越多的企業會選擇定制化模型來解決實際問題,而不是僅僅做套殼應用。