成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌Gemini 1.5技術報告:輕松證明奧數題,Flash版比GPT-4 Turbo快5倍

人工智能 新聞
谷歌表示,Gemini 1.5 相比 Claude 3.0 和 GPT-4 Turbo 實現了代際提升。

今年 2 月,谷歌上線了多模態大模型 Gemini1.5,通過工程和基礎設施優化、MoE 架構等策略大幅提升了性能和速度。擁有更長的上下文,更強推理能力,可以更好地處理跨模態內容。

本周五,Google DeepMind 正式發布了 Gemini 1.5 的技術報告,內容覆蓋 Flash 版等最近升級,該文檔長達 153 頁。

技術報告鏈接:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

在本報告中,谷歌介紹了 Gemini 1.5 系列模型,它是代表了下一代高計算效率的多模態大模型,能夠從數百萬 token 上下文中調用細粒度信息并進行推理,包括多個長文檔、數小時的視頻。

該系列包括兩個新型號:

  1. 更新的 Gemini 1.5 Pro,其大部分功能和基準都超過了 2 月份的版本
  2. Gemini 1.5 Flash,一種更輕量級的變體,專為提高效率而設計,并且在性能方面的減益很小。

有關本周谷歌 I/O 大會上提到的 Flash 版,報告中表示,Gemini 1.5 Flash 是一個 Transformer 解碼器模型,具有與 Gemini 1.5 Pro 相同的 2M+ 上下文和多模態功能,旨在高效利用張量處理單元 (TPU),并具有較低的模型服務延遲。例如,Gemini 1.5 Flash 可以并行計算注意力和前饋分量,并且也是擁有更大網絡在線提取能力的 Gemini 1.5 Pro 模型。它使用高階預處理方法進行訓練以提高質量。

報告評估了從 Gemini 1.5 和 Vertex AI 流 API 中獲取的英語、中文、日語和法語查詢的每個輸出字符的平均時間。

英語、中文、日語和法語響應的每個輸出字符的時間(毫秒),在輸入 1 萬個字符的情況下,Gemini 1.5 Flash 在所有測試的語言中實現了最快生成速度。

圖片

Gemini 1.5 Pro、1.5 Flash 和 Gemini 1.0 模型在標準編碼、多語言以及數學、科學和推理基準上的評估結果。1.5 Pro 和 1.5 Flash 的所有數字都是在指令調整后獲得的。

圖片

Gemini 1.5 Pro 與 Gemini 1.0 Pro 和 Ultra 在視頻理解基準上的比較。

圖片

Gemini 1.5 Pro 與 USM、Whisper、Gemini 1.0 Pro 和 Gemini 1.0 Ultra 在音頻理解任務上的比較。

Gemini 1.5 模型在跨模態的長上下文檢索任務上實現了近乎完美的召回,提高了長文檔 QA、長視頻 QA 和長上下文 ASR 的最優水平,并匹配或超越 Gemini 1.0 Ultra 在一系列廣泛的基準測試中表現出最先進的性能。此外,谷歌也表示,到今年 5 月,Gemini 1.5 的性能相比 2 月份已有明顯提升。

圖片

Gemini 1.5 Pro(5 月)與初始版本(2 月)在多個基準測試中的比較。最新的 Gemini 1.5 Pro 在所有推理、編碼、視覺和視頻基準測試中進行了改進,而音頻和翻譯性能保持不變。注意,對于 FLEURS,分數越低越好。

Google DeepMind 副總裁,Gemini 項目聯合負責人 Oriol Vinyals 總結道,Gemini 1.5 Pro > 1.0 Ultra、1.5 Flash(目前最快型號) ~= 1.0 Ultra。

通過研究 Gemini 1.5 的長上下文能力的極限,我們可以看到在下一個 token 預測和近乎完美的檢索(>99%)方面持續改進。相比 Claude 3.0 (200k) 和 GPT-4 Turbo (128k) 等現有模型實現了一代的飛躍。

在報告的第七章節,谷歌介紹了 Gemini 1.5 Pro 數學增強版本的跑分,它在競賽級數學問題上表現出色,包括在未使用工具的情況下在 Hendryck 的 MATH 基準測試中取得了 91.1% 的突破級性能。

以下是該模型解決亞太數學奧林匹克(APMO)題目的一些示例,這些問題是此前模型顯然無法解決的。Oriol Vinyals 表示,這個回答相當棒,因為它是一個證明(而不是計算),解決方案切中要害,而且「很漂亮」。

最后,谷歌重點介紹了大模型在現實世界的用例,例如 Gemini 1.5 與專業人士合作完成任務并實現目標,在 10 個不同的工作類別中可節省 26-75% 的時間。

這種前沿大語言模型也展示出了一些令人驚訝的新功能。當給定 Kalamang(一種巴布亞新幾內亞西部不到 200 人使用的語言)的語法手冊時,該模型可以學會將英語翻譯成 Kalamang,與從相同內容中學習的人類處于相似的水平。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-09-15 13:32:00

AI模型

2023-06-28 08:36:44

大語言模型人工智能

2023-09-04 10:05:01

GPT-4AI模型

2023-12-26 08:17:23

微軟GPT-4

2024-05-20 15:40:00

AI數學

2024-05-21 12:23:17

2023-04-11 14:13:23

阿里AI

2023-12-20 15:32:02

模型數據

2023-06-19 08:19:50

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-09-03 12:56:43

2023-12-08 08:10:34

谷歌GeminiOpenAI

2023-08-15 10:33:06

微軟必應人工智能

2023-08-29 13:50:00

AI谷歌

2023-12-17 22:04:04

微軟GPT-4

2023-11-08 13:05:23

AI模型

2024-04-10 14:07:00

數據AI

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-11-10 09:48:34

2024-04-16 12:15:42

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人精品一区二区三区在线 | www.4hu影院| 国产精品精品3d动漫 | 中文一区二区 | 国产免费色 | 日本午夜免费福利视频 | 久久久www成人免费精品张筱雨 | 国产高清视频在线观看 | 国产精品久久av | 久久精品国产v日韩v亚洲 | 伊人手机在线视频 | 精品免费国产一区二区三区四区介绍 | 污视频免费在线观看 | 91嫩草精品 | www.黄色网| 久久亚洲国产精品 | 国产精品成人一区二区 | 黄色av网站在线观看 | 成人免费视频在线观看 | 中文字幕亚洲一区二区三区 | 欧美一级二级三级视频 | 久久精品 | 在线观看视频中文字幕 | 在线观看av网站永久 | 国产精品18久久久久久白浆动漫 | 黄色av免费 | 中文字幕第一页在线 | 亚洲一区二区在线播放 | 韩日精品视频 | 午夜视频一区 | 日韩欧美中文字幕在线视频 | 久久久久99| 黑人中文字幕一区二区三区 | 在线观看国产视频 | 精品国产一区一区二区三亚瑟 | 久久人人爽人人爽人人片av免费 | 久久久久久www | 日韩免费视频一区二区 | 国产高清久久 | 一区二区三区网站 | 久草电影网 |