百度文心一言效果直逼GPT-4,實打實的國產大模型“扛把子”
8月12日,天津大學和信創海河實驗室舉辦“大模型技術與評測研討會”,會上天津大學發布首份《大模型評測報告》,對國內外主流的14個大語言模型進行中文綜合能力評測,結果顯示,GPT-4和百度文心一言相較于其他模型綜合性能顯著領先,兩者得分相差不大,處于同一水平。隨著中國大模型的蓬勃發展,國產大模型中文心一言已經在大部分中文任務中實現了對ChatGPT的超越,并逐步縮小與GPT-4的差距,中美大模型正在形成兩強領跑的格局。
尤其值得關注的是,在此次評測中,天津大學引入GPT-4對參評模型的主觀題回答進行了打分,結果顯示,在GPT-4看來文心一言生成的中文內容質量更高。相比人工評價,在基于GPT-4的自動評測中,文心一言的總得分一舉超過GPT-4,躍居榜首。
天津機器學習重點實驗室負責人、天津大學胡清華教授表示,“基礎智能模型有望重塑人工智能的發展模式,國內外大模型如雨后春筍般大量涌現。全面準確評價此類模型是推動和規范其健康發展的基礎,為使用者在選擇和應用大模型時提供參考??梢钥吹?,百度文心一言在評測中展現了國產大模型的強大實力,中國的大語言模型在短期內取得巨大發展,正在逐步趕超國際類似的模型,甚至在某些指標上實現了局部超越。未來,期待國產大模型能夠取得更大突破,可以賦能社會經濟發展,助力我國科技高質量自立自強。”
據了解,參與本次評測的大模型包括GPT-4、ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo等國外大模型,以及百度文心一言、阿里通義千問、訊飛星火認知大模型、ChatGLM-6B、360智腦、MOSS-16B、MiniMax、baichuan-7B等國產大模型。評測使用一套涵蓋知識問答、語言表達、邏輯推理、常識問答、文本問答、機器翻譯等不同領域知識、包含多種題型的中文綜合性試題,通過多維度得分結果,清楚了解不同模型的擅長領域和綜合能力優劣。
結果顯示,國產大模型以文心一言為代表,在知識問答、語言表達、邏輯推理、常識問答等方面表現出色。相比其他國產大模型,文心一言更具優勢,展示了更強大的綜合能力。尤其在中文語言表達上,文心一言相比GPT-4和其他國內大語言模型明顯更優質。此外,本次評測中,文心一言在計算機、醫學、法律和教育等領域的得分率高,為大語言模型在相關行業的落地提供了技術基礎。
近期,國內外多家調研機構、權威媒體和高校等發布大模型評測報告,從結果來看,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表現;綜合能力在評測中超過ChatGPT,領先于其他大模型,穩居國內第一。有專家指出,大模型正在進入規模可復制的產業落地階段,在關注大模型評測的同時,更要關注大模型的落地生態。百度文心在大模型生態的構建上具備先發優勢。
公開資料顯示,目前有15萬家企業申請接入文心一言測試。最新數據顯示,百度有超過750萬開發者基礎,20萬企業生態基礎,多層次開展大模型人才培訓、企業賦能、開發者運營。百度還設立10億創投基金鼓勵大模型創意、繁榮大模型生態,不到1個月時間吸引近1000個項目參與角逐,參賽團隊表示,百度打響了中國大模型的第一槍,百度在資金、技術、業務等方面的全面扶持,大幅降低了大模型行業的入局門檻,為大模型應用創業團隊注入了強勁動力和信心。