谷歌重磅發布Gemini 1.5 Pro:能自動寫影評,理解視頻!
4月10日凌晨,谷歌在官網正式發布了Gemini 1.5 Pro,現在可在180多個國家/地區使用。
除了能生成創意文本、代碼之外,Gemini 1.5 Pro最大的特色是能根據用戶輸入的文本提示,理解、總結上傳的視頻、音頻內容進行深度總結,并且支持100萬tokens上下文。
目前,可以在Google AI Studio開發平臺中免費試用Gemini 1.5 Pro,支持中文進行提示。
此外,谷歌還對Gemini API進行了性能優化,包括系統指令、JSON模式以及函數調用優化,可顯著提升模型的穩定性和輸出能力。
視頻理解展示
「AIGC開放社區」通過Google AI Studio開發平臺第一時間體驗了一下最新的Gemini 1.5 Pro的多模態理解能力。使用方法非常簡單便捷,以下是教程示例。
1)登錄https://aistudio.google.com/app/prompts/new_chat然后選擇模型Gemini 1.5 Pro,以及上方的Video功能。
2)點擊Video后,選擇Upload上傳視頻。
3)由于模型對上傳視頻的解析速度過慢,所以,這里直接使用了谷歌內置的視頻示例。需要注意的是,上傳視頻不要超過100萬tokens。
4)我們使用內置視頻示例,然后用中文提問:“介紹一下這部影片講述了哪些內容。”
5)Gemini 1.5 Pro正在解析,通常只需要幾十秒就能完成。
結果已經出來了,這是一部由BusterKeaton 于 1924 年主演并導演的電影《福爾摩斯二世》。
6)我們繼續發問,“你能用這個視頻寫一段600字的影評嗎?”大概幾十秒后,Gemini 1.5 Pro便生成了影評。
雖然生成的內容無法與頂級影評人的作品媲美。但整體的文章架構、敘述方法以及詞匯的準確度是超過很多小白、中級影評人的水平。只需要在這個基礎之上進行稍加修改,就是一篇不錯的內容。
值得一提的是,用戶可以一次性上傳多個視頻一起解讀,這對于視頻媒體行業來說很有幫助,可以快速理解長視頻內容節省時間。
音頻理解展示
我們再試試音頻,基本操作與視頻差不多。這里我們上傳一份英文閱讀ESL Podcast的課程。
然后上傳MP3格式文件
2)音頻比視頻解析快了很多很多,這里我們上傳的音頻有大約12萬tokens。
3)開始發問,“總結一下這個音頻的內容。”
4)Gemini 1.5 Pro已經精準解讀出來了,這個音頻是 ESL Podcast 系列課程“Jeff 的一天”的第一課,旨在幫助學習者掌握日常英語詞匯。
比較意外的是,Gemini 1.5 Pro還把整個可成的結構、故事內容和學習目標全部都解讀了出來,看來Gemini 1.5 Pro還是更懂英文數據內容。
Gemini 1.5 Pro的音頻理解,同樣支持多個文件一起解讀。
Gemini API改進
為了幫助開發人員更好地控制Gemini模型,谷歌對API進行了三個優化。
系統指令:目前可以在Google AI Studio 和 Gemini API 中使用系統指令功能,可指導模型的響應輸出。能讓用戶根據其特定需求和用例控制模型的行為。
在設置系統指令時,用戶需要為模型提供額外的上下文來了解任務、提供自定義程度更高的響應,并在用戶與模型的整個互動過程中遵循特定準則。
而開發者通過系統指令能定義角色、格式、目標和規則,以引導模型在特定用例中的各種行為。
JSON模式:現在Gemini API 提供了一個配置參數,用于請求 JSON 格式的響應。可以幫助開發者從文本或圖像中提取結構化數據。
函數調用優化:開發者可以使用自定義函數并將其提供給AI模型,但模型不會直接調用這些函數,而是生成指定函數名稱和建議的參數的結構化數據輸出。
該輸出支持調用外部 API,然后生成的 API 輸出可以重新合并到模型中,從而幫助開發者實現更全面的查詢響應。
目前,Gemini 1.5 Pro已經全面開放使用了,有興趣的小伙伴趕緊去試試吧。
本文轉自AIGC開放社區 ,作者:AIGC開放社區
