Grok多模態大模型Grok-1.5V來了! 原創
Grok-1.5V是下xAI第一代多模態大模型,除了其強大的文本能力外,Grok現在還可以處理各種各樣的視覺信息,包括文檔、圖表、示意圖、截圖和照片。Grok-1.5V即將提供給早期測試人員和現有的Grok用戶使用。
能力
Grok-1.5V在多個領域與現有多模態大模型具有競爭力,從多學科推理到理解文檔、科學圖表、截圖和照片。Grok在新RealWorldQA基準測試中表現優異,該測試衡量了對現實世界空間理解的能力。對于下面的所有數據集,在零提示的情況下評估Grok,不使用思維鏈的提示。
示例1:看圖表寫代碼
示例2:計算卡路里
示例3:從一幅圖畫到一個睡前故事
示例4:解釋一個網絡迷因
示例5:將表格轉換為 CSV 格式
示例6:幫助處理露臺上腐爛的木材
示例7:解決編程問題
實現真實世界理解
為了開發出有用的真實世界人工智能助手,提升模型對物理世界的理解至關重要。為了實現這一目標,研究人員引入了一個新的基準測試,RealWorldQA。該基準旨在評估多模式模型的基本真實世界空間理解能力。盡管當前基準測試中的許多示例對人類來說相對容易,但它們常常對前沿模型構成挑戰。
RealWorldQA的初始發布包含超過700張圖像,每張圖像都附帶一個問題和易于驗證的答案。該數據集包含了從車輛中獲取的匿名圖像,以及其他真實世界的圖像。后續xAI將隨著多模態模型的改進而擴展它。RealWorldQA在CC BY-ND 4.0下發布。
譯自(有刪改):https://x.ai/blog/grok-1.5v
什么是Grok?
Grok是由xAI開發的生成式人工智能聊天機器人,基于大語言模型(LLM)。它是由埃隆·馬斯克發起的一項倡議,作為對OpenAI的ChatGPT的直接回應而開發的,而馬斯克是ChatGPT的聯合創始人之一。該聊天機器人被宣傳為“具有幽默感”,并直接接入Twitter(X)。
時間線
- 2024年3月11日,馬斯克在X上發布消息稱語言模型將在一周內開源,六天后,即3月17日,Grok開始開源。
- 2024年3月17日,Grok-1以Apache-2.0許可證的形式開源。
- 2024年3月26日,馬斯克宣布Grok將對所有高級訂閱用戶開放,而不僅僅是高端層級的Premium+。
- 3月29日,Grok-1.5發布,具有“改進的推理能力”和128,000個token的上下文長度。
本文轉載自公眾號AIGC最前線
原文鏈接:??https://mp.weixin.qq.com/s/-EAuLUPqWVjbyaKgizL7vA??
