成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產大模型全陣容,中文大模型競技場推出!

人工智能
近日,上海人工智能實驗室聯合魔搭社區推出中國大語言模型評測競技場Compass Arena,首度集齊國內主流大模型全陣容,阿里通義千問、百度文心一言、騰訊混元、訊飛星火、字節跳動豆包、智譜AI、百川智能、零一萬物、月之暗面、Minimax、深度求索、書生·浦語等20款國產大模型出戰,角逐中國大模型“最強王者”。

LMSYS Org推出的大模型競技場Chatbot Arena,已成為海外最具公信力的大模型榜單之一,但該榜單中文化程度相對不足。近日,上海人工智能實驗室聯合魔搭社區推出中國大語言模型評測競技場Compass Arena,首度集齊國內主流大模型全陣容,阿里通義千問、百度文心一言、騰訊混元、訊飛星火、字節跳動豆包、智譜AI、百川智能、零一萬物、月之暗面、Minimax、深度求索、書生·浦語等20款國產大模型出戰,角逐中國大模型“最強王者”。

相比考題固定的傳統測評,大模型競技場采用盲測、開放的測評模式,可以更全面地檢驗模型實力。Compass Arena設置了隨機、匿名對戰,大模型選手們成為“蒙面唱將”,模型信息隱去后,由系統隨機匹配進行PK,用戶可以天馬行空自由出題,并作為評委主觀評判和投票。如果大模型不小心“自報家門”,則對話被過濾,不計入成績。通過成千上萬輪PK挑戰和用戶投票,系統將對大模型進行自動排名。

魔搭社區直播時,網友腦洞大開在線出題

Compass Arena由上海人工智能實驗室OpenCompass司南評測體系與魔搭社區聯合建設,前者負責組織評測,后者負責開源模型引入及社區打造。據上海人工智能實驗室OpenCompass團隊介紹,Compass Arena力求體現社區用戶的真實反饋,評測機制借鑒Chatbot Arena,采用Elo評分系統,即國際象棋等對弈活動評估的權威標準。在這種模式下,大模型競技類似“在游戲中打排位”,勝率成為評估模型水平的關鍵指標,同時隨著排位變高,系統也會自動匹配高段位選手進行對戰。

與Chatbot Arena相比,Compass Arena更聚焦中文大模型,主流國產大模型全覆蓋,同時評測用戶大多使用中文,可以充分評估國產大模型的性能。

目前,Compass Arena已匯聚超20款商業及社區模型,包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等國內頭部廠商的旗艦款大模型,并引入了Llama3、Mixtral等海外標桿模型進行參照。更多模型及廠商還在不斷加入中。

上線不到一周,已有上萬人訪問魔搭Compass Arena頁面。魔搭社區表示,歡迎廣大開發者和網友參與大模型排位賽的投票,共同促進國產大模型的進步和趕超。后續,Compass Arena首期排行榜將揭曉,并將定期公布更新。

魔搭社區Compass Arena鏈接:https://www.modelscope.cn/studios/opencompass/CompassArena

Compass Arena首批大模型名單:

Abab6.5-Chat (MiniMax)

Baichuan 4 (百川智能)

C4AI Command R+ (Cohere)

DBRX-Instruct (DataBricks)

Deepseek-LLM-67B-Chat(深度求索)

Deepseek-MoE-16B-Chat(深度求索)

Doubao-Pro-4K (字節豆包)

ERNIE-4.0-8K (百度文心一言)

GLM4 (智譜AI)

Hunyuan-Pro (騰訊混元)

InternLM2系列(上海AILab書生·浦語)

Llama3系列(Meta)

Mixtral 8x22B Instruct (Mistral)

MoonShot-V1-32K (月之暗面)

Qwen1.5系列 (阿里通義千問)

Qwen-Max (阿里通義千問)

Spark3.5-Max (訊飛星火)

Yi-34B-Chat (零一萬物)

Yi-Large (零一萬物)

責任編輯:鳶瑋
相關推薦

2024-10-16 15:07:57

2024-06-20 14:04:17

2024-07-24 12:40:44

2025-04-18 10:43:23

2025-02-28 08:40:00

2012-05-31 14:20:14

2025-02-06 12:10:00

2025-03-13 06:34:49

2024-04-23 07:00:00

2025-02-18 10:25:10

2024-04-22 08:40:00

LLM模型開源

2025-04-02 09:21:00

DeepSeekAI開源

2024-12-31 12:35:46

2024-05-20 15:25:47

2023-11-03 07:47:12

機器資源大模型:

2025-05-13 02:00:22

2025-05-06 01:45:00

大模型Llama4版本

2013-09-12 11:17:02

2025-02-28 12:32:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产大学生情侣呻吟视频 | av一区在线观看 | 日韩视频在线播放 | 欧美性生活一区二区三区 | 色婷婷狠狠| 九九精品久久久 | 精品成人在线 | 亚洲成av人片在线观看无码 | 我要看免费一级毛片 | 99中文字幕| 国产精品久久久久久久久 | 黄色毛片在线播放 | 色婷婷综合久久久久中文一区二区 | 99亚洲精品| 国产欧美在线 | av在线天堂 | 亚洲综合无码一区二区 | 亚洲视频一区在线 | 成人免费视频网 | 一区二区福利视频 | 欧美一区二区在线观看 | 一区二区三区在线免费观看视频 | 成人在线视频一区 | 国产一区二区在线视频 | 黄网站涩免费蜜桃网站 | 一区 | 日韩精品久久久久久 | 欧美成年人 | 精品无码久久久久久国产 | 亚洲 欧美 在线 一区 | 美国一级毛片a | 成人午夜网站 | 亚洲国产精品久久久久久 | 成人精品毛片 | 久久久久国产精品一区二区 | 四虎最新 | 337p日本欧洲亚洲大胆 | 天天爽网站 | 一区二区三区精品视频 | www久久国产| 成人免费视频网站在线看 |