谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！

Aceryt

發布于 2024-4-10 09:54

瀏覽

0收藏

4月10日凌晨，谷歌在官網正式發布了Gemini 1.5 Pro，現在可在180多個國家/地區使用。

除了能生成創意文本、代碼之外，Gemini 1.5 Pro最大的特色是能根據用戶輸入的文本提示，理解、總結上傳的視頻、音頻內容進行深度總結，并且支持100萬tokens上下文。

目前，可以在Google AI Studio開發平臺中免費試用Gemini 1.5 Pro，支持中文進行提示。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

此外，谷歌還對Gemini API進行了性能優化，包括系統指令、JSON模式以及函數調用優化，可顯著提升模型的穩定性和輸出能力。

視頻理解展示

「AIGC開放社區」通過Google AI Studio開發平臺第一時間體驗了一下最新的Gemini 1.5 Pro的多模態理解能力。使用方法非常簡單便捷，以下是教程示例。

1）登錄https://aistudio.google.com/app/prompts/new_chat然后選擇模型Gemini 1.5 Pro，以及上方的Video功能。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

2）點擊Video后，選擇Upload上傳視頻。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

3）由于模型對上傳視頻的解析速度過慢，所以，這里直接使用了谷歌內置的視頻示例。需要注意的是，上傳視頻不要超過100萬tokens。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

4）我們使用內置視頻示例，然后用中文提問：“介紹一下這部影片講述了哪些內容。”

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

5）Gemini 1.5 Pro正在解析，通常只需要幾十秒就能完成。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

結果已經出來了，這是一部由BusterKeaton 于 1924 年主演并導演的電影《福爾摩斯二世》。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

6）我們繼續發問，“你能用這個視頻寫一段600字的影評嗎？”大概幾十秒后，Gemini 1.5 Pro便生成了影評。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

雖然生成的內容無法與頂級影評人的作品媲美。但整體的文章架構、敘述方法以及詞匯的準確度是超過很多小白、中級影評人的水平。只需要在這個基礎之上進行稍加修改，就是一篇不錯的內容。

值得一提的是，用戶可以一次性上傳多個視頻一起解讀，這對于視頻媒體行業來說很有幫助，可以快速理解長視頻內容節省時間。

音頻理解展示

我們再試試音頻，基本操作與視頻差不多。這里我們上傳一份英文閱讀ESL Podcast的課程。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

然后上傳MP3格式文件

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

2）音頻比視頻解析快了很多很多，這里我們上傳的音頻有大約12萬tokens。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

3）開始發問，“總結一下這個音頻的內容。”

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

4）Gemini 1.5 Pro已經精準解讀出來了，這個音頻是 ESL Podcast 系列課程“Jeff 的一天”的第一課，旨在幫助學習者掌握日常英語詞匯。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

比較意外的是，Gemini 1.5 Pro還把整個可成的結構、故事內容和學習目標全部都解讀了出來，看來Gemini 1.5 Pro還是更懂英文數據內容。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

Gemini 1.5 Pro的音頻理解，同樣支持多個文件一起解讀。

Gemini API改進

為了幫助開發人員更好地控制Gemini模型，谷歌對API進行了三個優化。

系統指令：目前可以在Google AI Studio 和 Gemini API 中使用系統指令功能，可指導模型的響應輸出。能讓用戶根據其特定需求和用例控制模型的行為。

在設置系統指令時，用戶需要為模型提供額外的上下文來了解任務、提供自定義程度更高的響應，并在用戶與模型的整個互動過程中遵循特定準則。

而開發者通過系統指令能定義角色、格式、目標和規則，以引導模型在特定用例中的各種行為。

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！-AI.x社區

JSON模式：現在Gemini API 提供了一個配置參數，用于請求 JSON 格式的響應。可以幫助開發者從文本或圖像中提取結構化數據。

函數調用優化：開發者可以使用自定義函數并將其提供給AI模型，但模型不會直接調用這些函數，而是生成指定函數名稱和建議的參數的結構化數據輸出。

該輸出支持調用外部 API，然后生成的 API 輸出可以重新合并到模型中，從而幫助開發者實現更全面的查詢響應。

目前，Gemini 1.5 Pro已經全面開放使用了，有興趣的小伙伴趕緊去試試吧。

本文轉自AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/E-0c8cHZcvga8eNqdu1msA??

標簽

AI 開源

已于2024-4-10 09:55:29修改

贊

回復

舉報

回復

相關推薦

使用 Gemini Pro 高效開發應用

mb5f8eba9bdb0af ? 3707瀏覽 ? 0回復
谷歌推出通用AI代理：能自動執行600多種動作，游玩復雜3D游戲

Aceryt ? 3380瀏覽 ? 0回復
谷歌推出多模態視頻模型，自動生成豐富動作視頻

Aceryt ? 3440瀏覽 ? 0回復
直擊 Google Cloud Next 2024 大會更多細節，不只Gemini 1.5 Pro ！

51CTO技術棧 ? 4829瀏覽 ? 0回復
谷歌推出V2A，可為視頻大模型自動匹配語音

Aceryt ? 3987瀏覽 ? 0回復
Google AI 推出 Gemini 1.5 Pro API 全面提升開發者體驗

uiuiAGI ? 3741瀏覽 ? 0回復
阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步

51CTO技術棧 ? 3242瀏覽 ? 0回復
重磅！OpenAI發布SearchGPT，挑戰谷歌、進軍搜索引擎！

Aceryt ? 2463瀏覽 ? 0回復
阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！

Aceryt ? 3396瀏覽 ? 0回復
谷歌發布Gemini模型重大更新，OpenAI、Anthropic反擊，競爭仍在繼續

Syrupup ? 3089瀏覽 ? 0回復
超Gemini-1.5-pro 9.5%！字節&上交&北大開源StoryTeller：生成一致性高的長視頻描述

angel ? 2753瀏覽 ? 0回復
重磅！！OpenAI 發布 Sora：最受期待的 AI 視頻生成工具

Halo咯咯 ? 2170瀏覽 ? 0回復
基于谷歌Gemini多模態模型實現PDF文檔自動化處理

51CTO內容精選 ? 2906瀏覽 ? 0回復
谷歌AI發布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 6218瀏覽 ? 0回復
谷歌三款新模型齊發，Gemini-2.0-Pro免費、跑分超o1登頂第一，適合編碼、處理復雜提示！

老蛀蟲 ? 2680瀏覽 ? 0回復
Gemini 2.0 Flash Thinking：谷歌放大招！能"直播思考"的AI來了，推理能力吊打OpenAI？

Halo咯咯 ? 5002瀏覽 ? 0回復
7B模型太全能了，全面擊敗Gemini-1.5-pro！所有用戶都能試玩！

51CTO技術棧 ? 1438瀏覽 ? 0回復
Google Gemini 2.5 Pro：AI界的“全能王”來了！

Halo咯咯 ? 1773瀏覽 ? 0回復
谷歌Gemini 2.5家族全面升級：Pro、Flash與Flash-Lite正式發布，AI推理能力再進化

AI博物院 ? 1834瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

谷歌重磅發布Gemini 1.5 Pro：能自動寫影評，理解視頻！

目錄