曠視實戰大模型:把多模態扎進行業
距離ChatGPT、GPT-4等引爆新一輪人工智能變革的時刻,已經過去了整整一年的時間。在這一年里,國內外大量公司涌入大模型的“斗獸場”,加速大模型技術的迭代與躍遷。
大模型前所未有的通用任務處理能力,讓所有人看到了解鎖更多應用場景的可能性。各行各業開始從自身業務出發,探索與大模型結合的可能性,對大模型的渴求遠勝以往。
但在這喧囂的背后,越來越多的業內外人士開始冷靜思考這樣的問題:
大模型能做什么?大模型何時變現?
置于中國獨特的技術創新土壤,這是一道難以回避的命題。
△圖:由DALL·E 3生成
中國AI行業經過多年發展,雖然在生物識別、工業機器人、自動駕駛這樣的領域,取得了一定程度的突破,但真正被技術顛覆、大規模落地的產品和應用并未出現。
過去在小模型時代沒有解決的難題,會隨著大模型的到來迎刃而解嗎?
作為國內最早一批人工智能創業公司,曠視經歷過AI技術創新和商業化探索的起起伏伏。面對大模型引爆的新一輪AI浪潮,曠視是如何看待和布局的?
錨定多模態大模型
“從技術演進看,無論是之前的AlphaGo,還是如今的大模型,本質上都是深度學習的延續。這輪人工智能技術的發展浪潮只有一項核心技術能力,那就是深度學習。”曠視聯合創始人、CEO印奇表示,從CNN、ResNet到Transformer,深度學習是底層最核心的技術主軸。
大模型的爆發,源于學術界和產業界過去十幾年在NLP、視覺、語音等深度學習核心領域研究成果的積累,這是一個從量變到質變的過程。
從小模型走向大模型,變化的是模型的規模與性能,不變的是深度學習這條主線。在印奇看來,深度學習引發的創業潮中,雖然很多公司聲稱自己是AI公司,但大多數還是在做AI行業應用。
曠視從成立開始就一直沿著計算機視覺的方向,堅持做深度學習的基礎科研。“曠視在深度學習領域有核心能力積累,這是我們持續引領創新的根基”。
如今,隨著大模型技術的躍遷,視覺模型領域呈現出“大”和“統一”的趨勢。“大”意味著大數據、大算力和大參數量,“統一”體現在NLP、視覺、語音等模態的融合,以及感知、理解和生成能力的融合。
作為一家以視覺技術見長的AI公司,曠視將視覺模型和語言模型結合,大力發展多模態大模型,實現對多模態信息的綜合理解與分析。
印奇表示,曠視的目標從第一天就沒有變過,就是走向AGI。而我們的路徑也比較明確,就是要軟硬結合。多模態大模型是當前最重要的環節,我們會專注這個領域的科研。
△圖:由DALL·E 3生成
曠視的研究院團隊從很早開始就投入大模型的研究,在視覺技術、底層框架和數據閉環等方面積累了大量基礎科研成果和科研人才,為多模態大模型的持續迭代奠定了基礎。
曠視提出的多模態大模型,是視覺在走向“大”和“統一”的過程中,與NLP深度結合的產物,是多模態的語言與視覺理解模型。
基于長期積累的行業經驗,曠視將??多模態?模型定位在數?億?數百億參數級別的中?模型上。位于這個區間的大模型,本身具備較強的通用屬性,同時在行業部署成本、效率以及硬件適配等方面也是更優解。
隨著OpenAI Sora模型的問世,多模態大模型近期引燃了各行各業。雖然視頻生成是Sora最直觀的亮點,但更令人驚嘆的是它揭示出多模態模型對于圖片、視頻等強大的理解能力。
“Sora展現出的是OpenAI在走向AGI的過程中一個重要的中間態技術關鍵點,我們重點是要理解其底層的技術框架,而不是Sora應用本身。”印奇認為,在圖像視頻的領域,要將“生成”和“理解”分開來看。
如果將Sora作為獨立應用來看,它體現的是生成能力,核心應用場景更偏C端。而曠視會聚焦在感知理解能力上,其多模態大模型是針對圖片、視頻、文字等不同模態,綜合實現感知、理解和推理的引擎。
曠視會更專注于理解能力上,并在此基礎上面向2B業務打造行業應用。相信多模態大模型一定能解鎖更多的行業應用場景。
把多模態大模型扎進行業中去
盡管行業內外對于大模型的期待頗高,但一個普遍的行業共識是,目前的基礎大模型對于需求多元化的行業不具備廣泛的適用性。
在將大模型能力遷移到各行各業的過程中,不可避免會遇到復雜的場景需求。企業用戶在評估大模型的時候,會綜合考量應用場景、數據安全、升級維護和成本效益等因素。
對于大模型公司而言,這就意味著有大量“最后一公里”的工作要做,例如場景技術匹配、端到端部署、軟硬件適配和安全性等。
在印奇看來,隨著大模型時代的到來,“最后一公里”的效率會大幅提升、成本會顯著下降。但是,行業落地“最后一公里”的問題仍然存在。他表示,曠視的路徑選擇,是要堅定地走B端商業化的路徑。
△圖:由DALL·E 3生成
對于B端業務而言,僅僅憑借基礎大模型是難以切實落地的,ROI很難轉正。因此,曠視會重點推動多模態大模型在行業的應用,切入行業去做行業大模型。
大模型應用到具體行業,需要端到端的方案,門檻并不低,必須具備對于模型、系統、數據和行業的綜合理解能力。
首先,從技術角度看,絕不是將開源模型稍微調整一下就好,必須具備端到端的大模型能力。
其次,從行業角度看,本質上還是要以客戶為中心,與客戶共創行業大模型。行業know-how的積累,在大模型時代依然是稀缺的能力。
多年來,曠視服務了眾多的行業頭部客戶,在重點行業積累了專業的知識與經驗。目前,曠視正在與金融、運營商、手機、智能汽車等領域的客戶一起,推動大模型在行業的落地。
“目前走得比較快的還是金融行業。”曠視科技資深副總裁、云服務事業部負責人趙立威解釋道,“從去年年中開始,我們服務的一些金融類的客戶就開始大模型探索了。因為它們本身具有一定的基礎能力儲備,再加上對新技術敏感,因此對創新的渴求異常迫切。”
趙立威表示,大模型在像金融行業這樣典型的數據密集型、知識密集型行業一定大有可為。在他看來,從實際效果來看,大模型在短期內“增效”的效果要大于“降本”,也更能為客戶所接受。
但是,大模型要做到行業增效,是一項異常復雜的工程。很多行業客戶基于大數據、ERP、CRM等傳統IT能力,已經形成了標準業務流程。
如果僅僅是將大模型簡單地替換原有的IT體系,增益將會非常有限。只有充分理解已有的業務需求和邏輯,顛覆以往的業務流程、組織關系甚至是決策體系,才能發揮大模型在增效方面的作用。大模型落地,絕不是簡單的技術問題,而是復雜的業務問題。這一輪大模型的落地,一定是要與客戶共創才能實現。
目前,圍繞金融行業,曠視正在與銀行、保險等客戶合作,在金融風控、智能客服、文檔/代碼寫作、圖文分析、市場營銷等業務場景進行大模型的探索。
趙立威表示,“今年肯定是一個從0到1的過程,最重要的還是從重點客戶入手,找到一些適合大模型的業務場景,并實現業務閉環。這是我們的第一優先級。”