曠視實戰大模型：把多模態扎進行業

2024-03-20 13:18:46

如果僅僅是將大模型簡單地替換原有的IT體系，增益將會非常有限。只有充分理解已有的業務需求和邏輯，顛覆以往的業務流程、組織關系甚至是決策體系，才能發揮大模型在增效方面的作用。大模型落地，絕不是簡單的技術問題，而是復雜的業務問題。這一輪大模型的落地，一定是要與客戶共創才能實現。

距離ChatGPT、GPT-4等引爆新一輪人工智能變革的時刻，已經過去了整整一年的時間。在這一年里，國內外大量公司涌入大模型的“斗獸場”，加速大模型技術的迭代與躍遷。

大模型前所未有的通用任務處理能力，讓所有人看到了解鎖更多應用場景的可能性。各行各業開始從自身業務出發，探索與大模型結合的可能性，對大模型的渴求遠勝以往。

但在這喧囂的背后，越來越多的業內外人士開始冷靜思考這樣的問題：

大模型能做什么？大模型何時變現？

置于中國獨特的技術創新土壤，這是一道難以回避的命題。

△圖：由DALL·E 3生成

中國AI行業經過多年發展，雖然在生物識別、工業機器人、自動駕駛這樣的領域，取得了一定程度的突破，但真正被技術顛覆、大規模落地的產品和應用并未出現。

過去在小模型時代沒有解決的難題，會隨著大模型的到來迎刃而解嗎？

作為國內最早一批人工智能創業公司，曠視經歷過AI技術創新和商業化探索的起起伏伏。面對大模型引爆的新一輪AI浪潮，曠視是如何看待和布局的？

錨定多模態大模型

“從技術演進看，無論是之前的AlphaGo，還是如今的大模型，本質上都是深度學習的延續。這輪人工智能技術的發展浪潮只有一項核心技術能力，那就是深度學習。”曠視聯合創始人、CEO印奇表示，從CNN、ResNet到Transformer，深度學習是底層最核心的技術主軸。

大模型的爆發，源于學術界和產業界過去十幾年在NLP、視覺、語音等深度學習核心領域研究成果的積累，這是一個從量變到質變的過程。

從小模型走向大模型，變化的是模型的規模與性能，不變的是深度學習這條主線。在印奇看來，深度學習引發的創業潮中，雖然很多公司聲稱自己是AI公司，但大多數還是在做AI行業應用。

曠視從成立開始就一直沿著計算機視覺的方向，堅持做深度學習的基礎科研。“曠視在深度學習領域有核心能力積累，這是我們持續引領創新的根基”。

如今，隨著大模型技術的躍遷，視覺模型領域呈現出“大”和“統一”的趨勢。“大”意味著大數據、大算力和大參數量，“統一”體現在NLP、視覺、語音等模態的融合，以及感知、理解和生成能力的融合。

作為一家以視覺技術見長的AI公司，曠視將視覺模型和語言模型結合，大力發展多模態大模型，實現對多模態信息的綜合理解與分析。

印奇表示，曠視的目標從第一天就沒有變過，就是走向AGI。而我們的路徑也比較明確，就是要軟硬結合。多模態大模型是當前最重要的環節，我們會專注這個領域的科研。

△圖：由DALL·E 3生成

曠視的研究院團隊從很早開始就投入大模型的研究，在視覺技術、底層框架和數據閉環等方面積累了大量基礎科研成果和科研人才，為多模態大模型的持續迭代奠定了基礎。

曠視提出的多模態大模型，是視覺在走向“大”和“統一”的過程中，與NLP深度結合的產物，是多模態的語言與視覺理解模型。

基于長期積累的行業經驗，曠視將??多模態?模型定位在數?億?數百億參數級別的中?模型上。位于這個區間的大模型，本身具備較強的通用屬性，同時在行業部署成本、效率以及硬件適配等方面也是更優解。

隨著OpenAI Sora模型的問世，多模態大模型近期引燃了各行各業。雖然視頻生成是Sora最直觀的亮點，但更令人驚嘆的是它揭示出多模態模型對于圖片、視頻等強大的理解能力。

“Sora展現出的是OpenAI在走向AGI的過程中一個重要的中間態技術關鍵點，我們重點是要理解其底層的技術框架，而不是Sora應用本身。”印奇認為，在圖像視頻的領域，要將“生成”和“理解”分開來看。

如果將Sora作為獨立應用來看，它體現的是生成能力，核心應用場景更偏C端。而曠視會聚焦在感知理解能力上，其多模態大模型是針對圖片、視頻、文字等不同模態，綜合實現感知、理解和推理的引擎。

曠視會更專注于理解能力上，并在此基礎上面向2B業務打造行業應用。相信多模態大模型一定能解鎖更多的行業應用場景。

把多模態大模型扎進行業中去

盡管行業內外對于大模型的期待頗高，但一個普遍的行業共識是，目前的基礎大模型對于需求多元化的行業不具備廣泛的適用性。

在將大模型能力遷移到各行各業的過程中，不可避免會遇到復雜的場景需求。企業用戶在評估大模型的時候，會綜合考量應用場景、數據安全、升級維護和成本效益等因素。

對于大模型公司而言，這就意味著有大量“最后一公里”的工作要做，例如場景技術匹配、端到端部署、軟硬件適配和安全性等。

在印奇看來，隨著大模型時代的到來，“最后一公里”的效率會大幅提升、成本會顯著下降。但是，行業落地“最后一公里”的問題仍然存在。他表示，曠視的路徑選擇，是要堅定地走B端商業化的路徑。

△圖：由DALL·E 3生成

對于B端業務而言，僅僅憑借基礎大模型是難以切實落地的，ROI很難轉正。因此，曠視會重點推動多模態大模型在行業的應用，切入行業去做行業大模型。

大模型應用到具體行業，需要端到端的方案，門檻并不低，必須具備對于模型、系統、數據和行業的綜合理解能力。

首先，從技術角度看，絕不是將開源模型稍微調整一下就好，必須具備端到端的大模型能力。

其次，從行業角度看，本質上還是要以客戶為中心，與客戶共創行業大模型。行業know-how的積累，在大模型時代依然是稀缺的能力。

多年來，曠視服務了眾多的行業頭部客戶，在重點行業積累了專業的知識與經驗。目前，曠視正在與金融、運營商、手機、智能汽車等領域的客戶一起，推動大模型在行業的落地。

“目前走得比較快的還是金融行業。”曠視科技資深副總裁、云服務事業部負責人趙立威解釋道，“從去年年中開始，我們服務的一些金融類的客戶就開始大模型探索了。因為它們本身具有一定的基礎能力儲備，再加上對新技術敏感，因此對創新的渴求異常迫切。”

趙立威表示，大模型在像金融行業這樣典型的數據密集型、知識密集型行業一定大有可為。在他看來，從實際效果來看，大模型在短期內“增效”的效果要大于“降本”，也更能為客戶所接受。

但是，大模型要做到行業增效，是一項異常復雜的工程。很多行業客戶基于大數據、ERP、CRM等傳統IT能力，已經形成了標準業務流程。

目前，圍繞金融行業，曠視正在與銀行、保險等客戶合作，在金融風控、智能客服、文檔/代碼寫作、圖文分析、市場營銷等業務場景進行大模型的探索。

趙立威表示，“今年肯定是一個從0到1的過程，最重要的還是從重點客戶入手，找到一些適合大模型的業務場景，并實現業務閉環。這是我們的第一優先級。”

責任編輯：武曉燕來源：量子位

模型多模態體系

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

曠視實戰大模型：把多模態扎進行業

錨定多模態大模型

把多模態大模型扎進行業中去