12項性能位居第一,中國最接近GPT-4的大模型來了!現已全面開放服務!
中國何時會有一個大模型,能以極強的泛化能力,創建各種智能體、成為人類真正的助手?
在各大科技公司卷了半年的生成式AI熱潮趨于冷靜期的當下,這是一個極其值得思考的問題。
很多人會說,目前可能只有被稱為業界標桿的GPT-4才能勝任,甚至對它加以“唯一”這樣的頭銜。
而與此同時,著眼于國內,即使這半年來各個大模型玩家爭先恐后搶著落地,但“需要兩到三年才能追趕GPT-4”的聲音也是甚上塵囂。
然而就在最近,一個名為InternLM-123B的國產預訓練大語言模型,似乎將這種差距感極大地給拉近了一些。
因為在一場頂尖大模型“同臺競技”中,它的表現實屬有些亮眼:
? 12項成績排名第一。
? 綜合實力全球第二,部分成績超越GPT-4。
? 絕大部分性能超越ChatGPT和LLaMa-2-70B。
圖片
據了解,這個評測是在全球51個知名評測集(包括MMLU、AGIEval、ARC、CEval、Race、GSM8K等)、共計30萬道問題集合上測試所得到的結果。
而細看評測內容,不難發現在所有的閱讀理解、絕大部分推理和常識問答方面,InternLM-123B拿到了絕對的風頭。
圖片
那么這個國產大模型到底是什么來頭?
不賣關子,它正是由商湯聯合上海AI實驗室等多家國內頂尖科研機構發布的最新大語言模型。
但其實要是追溯一下這個大模型,不難發現在2個月前(6月份),當時參數量為1040億的InternLM便已經解鎖了“首個綜合能力超越GPT-3.5-turbo的基模型”的成就,成為當時國內首家在多項權威評測集上超越ChatGPT水平的基模型。
不僅如此,在近日商湯所披露的中期業績報告中,更是將如此生成式AI技術,落地所帶來的“成績”曝了出來:
僅半年時間,生成式AI相關收入暴漲670.4%!
圖片
如此技術,如此成績,那么不免讓人發出疑問:
會是中國第一個達到GPT4水平的大模型嗎?
若想趕超GPT-4,單是在技術上達到或超越它就并非是一件易事。
畢竟即使是人才、資金、算力都兼備的谷歌和Meta至今都未能達到它的水平。
而且超強的算力、高質量的數據、正確的訓練方法等等,都是一環扣一環,直接會影響大模型性能的好壞。
有人會說,為什么非要做到GPT-4水平呢?用Llama 2開源模型不香嗎?
那是因為,如果要讓GPT-4驅動類似于AutoGPT那樣的智能體,打造“工具調用”的可用境界,就必須要依賴強大的基座模型。
在“工具調用”這件事情上,強如GPT-4也只能做到80%的準確率,Llama的準確率只有40%。
圖片
數據來源:《On the Tool Manipulation Capability of Open-source Large Language Models》△△
再如落地方式上,經久不斷的開源閉源之爭,亦是抉擇的一個難點。
因此,我們不妨從技術實力、落地應用和戰略布局等方面,來看下商湯是否是一個值得被期待的“潛力股”。
一看技術實力
若是用一句話來概括商湯在技術上的打法,那便是“日日新大模型體系+SenseCore大裝置”。
二者并非是簡單的做加法那般疊加,而是之間有著深度融合的那種。
至于其技術實力效果,我們從大模型的迭代速度便可窺知一二。
早在今年四月,商湯便發布日日新大模型體系,成為國內第一批發布大模型的玩家之一;在國內大語言模型之戰最白熱化階段,一口氣將“生成式AI產品族”和盤托出——
商量(SenseChat)、秒畫(SenseMirage)、如影(SenseAvatar)、瓊宇(SenseSpace)和格物(SenseThings)。
它們分別對應的是自然語言交互、AI文生圖、數字人、3D大場景重建、3D小物體生成這五個主流的生成式AI應用。
圖片
時隔僅僅兩個月(今年6月),商湯再次聯合上海人工智能實驗室發布InternLM-104B版本,并且當時在三個全球權威測評基準中(MMLU、AGIEval、C-Eval)的表現就均已超越ChatGPT。
不僅如此,在大模型的“玩法”上,商湯也是國內眾多玩家里最早引入“工具調用”的選手之一。
例如知識庫掛載,實現了無需訓練,便可快速融合知識生成;搭配企業知識庫可以快速解決相關領域問題。
再如InternLM-Chat-7B版本,也是在這種“玩法”之下,成為了第一個具有代碼解釋能力的開源對話模型。
能夠根據需要靈活調用Python解釋器等外部工具,在解決復雜數學計算等任務上的能力顯著提升;此外,該模型還可通過搜索引擎獲取實時信息,提供具有時效性的回答。
圖片
并且從第三方對于大模型掌握工具能力的評估結果來看,InternLM-Chat-7B也是領先于主流“選手”。
圖片
在此之后,商湯大語言模型的發展,也就來到了我們最開始所提到的InternLM-123B,是僅次于GPT-4,綜合實力位居全球第二的水平。
所以現在把發展路徑中的幾個重要迭代時間節點拎出來就是:四月→六月→七月→八月。
不得不說,快,著實是快。
在與商湯聯合創始人兼大裝置首席科學家林達華交流過程中,我們了解到如此迭代速度的背后還有一個“殺手锏”——數據處理。
這里所指的并非只是數據的總量,商湯更側重的是足夠強、高吞吐量的數據清洗能力。正如林達華所述:
一個性能強大的大模型,訓練數據不僅規模要大,質量更要高;而且大模型的價值觀和安全性也是依賴于此。
數據清洗的過程,猶如調制配方的實驗,需要不斷試錯、不斷重復,甚至從頭再來。這個過程是每家訓練大模型的公司都無法避免的過程,沒有捷徑可走。
OpenAI在無數場合都介紹過GPT4訓練的經驗,但從未公開過數據清洗的經驗,這可謂是訓練大模型的頂級機密。
商湯在數據清洗的過程中投入了上千塊GPU的算力,并建立起大量系統化、工程化的途徑來進行數據配方的試錯,可以迅速發現大數據庫中的有效數據再到小參數模型上進行驗證。
從4月到8月,商湯花費了非常大的力氣做數據清洗,過程中專注于補充和構建有多步驟的推理語料,形成一套非常高效的閉環進行模型的訓練,使得模型的推理能力得到了大幅提升。
目前商湯每月能夠產出約2萬億token的高質量數據,預計年底高質量數據儲備將突破10萬億token,足以支持更加強大的基模型的訓練。
通過數據清洗,商湯在中文語料的儲備方面達到了一個相當高的水平,是業內領先的能力,因此在知識理解和推理方面都有非常優異的表現。
而如此迅猛的迭代速度和高質量數據清洗,定然是離不開大算力的加持,也就是商湯技術版圖中另一個關鍵——SenseCore大裝置。
早在2022年1月,商湯便交付使用了總投資高達56億元的人工智能計算中心(AIDC),而且是“出道”即成為亞洲最大的AI超算中心之一。
一年前它的算力就已經高達了2500 Petaflops,可以輕松應對萬億參數的大模型;而時隔僅1年,這個數值便翻了一倍多,達到了6000 Petaflops。
有強大的算力,有高質量數據,加之商湯對于“玩轉”大模型多年來沉淀的know-how,也就不難理解為何能擁有如此迅猛的迭代速度了。
二看落地應用
高質量的落地速度,是另一個關鍵點。
這也是目前趨于冷靜的AIGC市場之下,各個大模型玩家所面對的骨感且實實在在的問題。
商湯可以說在這一點上提交了一份生成式AI相關收入暴漲670.4%的高分作業。
這個數據的亮相其實也并不意外,因為商湯在此前的活動中也早已對此有所披露。
例如結合商量2.0和秒畫3.0的能力,商湯在移動端給客戶帶來了多種交互方面的“解法”。
針對信息獲取的問答交互、生活場景的知識交互、語言和圖像生成的內容交互等等,正因為商湯的大模型擁有輕量化版本,所以可以輕松在移動端上部署。
商湯還基于InternLM的輕量級模型,結合自研推理加速算法,與頭部手機芯片廠商建立研發合作,成功實現了大語言模型的手機端實時計算能力。
……
而這僅是商湯將大模型落地應用的一隅,從眾多案例來看,也正應了商湯聯合創始人、執行董事徐冰的觀察:
市場對于AIGC、大模型技術的需求是非常強烈的;誰能夠在市場上迅速地推出對標業界領先能力的基模型,誰就能跑得更快一些。
我們在基礎設施中投入如此大的力量,也是要解決市場對于大模型落地固有的碎片化的問題;讓基模型的泛化能力強大起來,即便面對各種碎片化的需求都可以做到及時響應。
因此,商湯的落地速度,從某種層面上也可以視為“強技術”與“強需求”之間的雙向奔赴了。
三看戰略布局
自從大模型熱潮以來,一個經久不斷的話題便是“開源”和“閉源”。
其各自的優勢也是越發的明顯:
? 開源大模型:可以促進技術的共享和交流,加速人工智能的發展;避免閉源模式下的技術獨霸和壟斷,促進市場的公平競爭。
? 閉源大模型:可以保護知識產權,為公司帶來經濟效益;提高公司的核心競爭力,為公司在市場中占據優勢地位。
但二者之爭也是進展地如火如荼,國外大模型巨頭亦是如此,最為典型的便是Meta正在以開源LLaMa系列來挑戰 OpenAI的地位。
在這個關鍵問題上,商湯的戰略布局與它們截然相反——不做選擇題,都要。
例如在開源方面,商湯與多家科研機構合作支持和推進AI開源平臺建設,InternLM-7B的部分訓練數據、訓練代碼及基模型權重已經向學術界及工業界免費開源,并支持免費商用。
而在閉源方面,商湯目標打造具有競爭力且好用的“基座模型”,如同英偉達賣“硬的鏟子”,商湯希望通過“軟的鏟子”,支持上萬個潛在行業大模型的需求,真正解決行業痛點。
正如林達華表示:
二者是相輔相成、互補的,它們對產業來說都有著非常重要的價值。
開源能夠讓更多人接觸到大模型這個技術本身。在這個過程中,它可以碰撞出更多火花,讓大模型更好的應用起來,推動整個大模型生態的建設。我想對全行業來說,開源是一個非常正面的貢獻。
而閉源對于企業在市場中形成技術和競爭力的壁壘起到至關重要的作用;未來若是能夠將二者做很好的結合,會更好地推動大模型市場的發展。
與此同時,商湯還非常看重基模型的能力,因為在它看來,只有把基模型做得足夠強,才能應對碎片化極高的市場需求。
這也應了徐冰的想法:
大語言模型也好,文生圖模型、多模態模型等等也罷,它們的發展今年都遵循了同樣的規律,就是先前碎片化,定制多;但現在轉為追求強大的基模型能力,追求強大的泛化能力,能夠直接接入到客戶場景里面,做好適配能夠很好地去迅速地形成商業上的價值變現閉環。
我們也粗略地估計了一下,全中國的行業大模型可能潛在的規模突破一萬個,因為這里面的場景非常多,玩家也非常多。這些行業的大模型是需要基于一個強大的基模型能力去生產的,它很難憑空只針對某個領域的數據就把行業大模型做好,因為它缺少了基模型所能帶來的一系列的涌現能力。
……
總而言之,有實力、有落地、有布局,商湯能否解鎖“成為中國第一個達到GPT-4水平的大模型”,是值得期待一波了。
商湯刷新了自己
最后,我們再回到商湯本身。
若是要用一句話來評價商湯這次交出的“成績單”,或許就是:
商湯自己刷新了自己。
曾幾何時,大眾和市場對于商湯的印象可能依舊是停留在“AI視覺技術公司”這個標簽上。
但也正是這樣的一個起點,如果站在當下這個時間節點回首,或許正應了現在非常流行那句話:命運的齒輪開始轉動了。
現在大模型所需要的多模態技術,不論是自然語言處理,還是圖像處理等,商湯已經早早涉足且深耕;現在大算力上的“一票難求”,商湯也是早早布局打造AIDC,為日后的大裝置做好了充足的鋪墊。
而且商湯更是在ChatGPT引爆AIGC大熱潮之前,便已經在大模型領域著手研發。
并且在2019年,商湯便使用上千張GPU進行單任務訓練,推出了10億參數規模的視覺模型,并實現了當時業界最好的算法效果。
后來在2021年到2022年期間,商湯訓練并開源了30億參數的多模態大模型書生。
而當熱潮退去,市場迎來落地大考之際,商湯又能將長期準備好的一系列的成果通過完備生產要素和生產資料、靈活的“玩法”和布局來應對。
因此,現在的商湯更像是一個新型技術基建平臺,時刻在為即將到來且充滿變數的未來在做著準備。
總而言之,商湯,是時候需要被重估了。
One More Thing
好消息!商湯大模型應用“商量SenseChat”即日起全面向廣大用戶開放服務了!
可戳下方鏈接了解一下:https://chat.sensetime.com