Google AI 推出 Gemini 1.5 Pro API 全面提升開發者體驗原創

發布于 2024-6-22 17:44

瀏覽

0收藏

Gemini 1.5 Pro 現已在全球公測，帶來多項關鍵更新

Gemini 1.5 Pro 現已在超過 180 個國家或地區的 Gemini API 公測環境中提供，引入了官方改進的音頻/視頻（語言）理解能力和新的文件 API，以便于實時大文件訪問。此外，還增加了多套綜合的 JSON 解析器架構，給予開發者更多控制與調試的功能。最后，發布了性能優越的下一代文本嵌入模型。
Google AI 推出 Gemini 1.5 Pro API 全面提升開發者體驗-AI.x社區

主要更新內容

全球可用性：
Gemini 1.5 Pro 現已在超過 180 個國家或地區的 Gemini API 公測環境中提供，使得全球開發者都能訪問并利用這一新型模型。

官方音頻/視頻（語言）理解能力：
引入了官方改進的音頻（語言）理解能力，意味著 Gemini 1.5 Pro 能夠更精確地解析和理解音頻輸入，為開發者提供更豐富的語言識別和處理工具。

新的文件 API：
新增的文件 API 使得文件大小不再成為限制，開發者能夠更高效地處理應用中的大文件傳輸，視頻和音頻文件的處理。

JSON 解析：
升級了 JSON 能力，包括多套綜合的 JSON 解析器架構，極大地提高了數據解析的精度和性能。

功能和接口：
改進了功能和接口調用，開發者可以選擇不同的接口實現功能調試，增強了系統接口的靈活性和適用性。

新的文本嵌入模型：
推出了性能優越的最新一代文本嵌入模型（text-embedding-004），在 MTEB 基準測試中顯示出比前幾代模型更優越的綜合性能，為文本分析和語義理解提供了強大的支持。

更廣泛的輸入格式支持：
Gemini 1.5 Pro 擴展了對不同輸入格式的支持，包括音頻和視頻，并計劃很快支持圖片內容和語言（語言）跨模態轉換的 API 交互，為開發者提供更多元化的應用可能。

這些更新不僅展示了 Google 對 AI 技術不斷創新的承諾，也為開發者提供了更多工具和資源，以便更好地構建和優化他們的應用程序和服務。
Google AI 推出 Gemini 1.5 Pro API 全面提升開發者體驗-AI.x社區

如何使用 Gemini 1.5 Pro？

創建 API 密鑰：
在 Google AI Studio 創建或申請測試的 API 密鑰，開始構建。

查看和使用擴展的音頻/視頻（語言）能力：
在 Gemini API 和 Google AI Studio 中查看擴展的音頻和視頻（語言）理解能力。支持通過上傳到 Google AI Studio 的視頻和音頻自動翻譯的音頻輸入，API 交互的潛力巨大。

配置 API 調用：
在 Google AI Studio 的 Gemini API 中，通過交互式的分析與管理控制臺創建、定義角色、格式、時間和規則，以便于理解不同的輸入格式和行為。

JSON 解析：
查看和使用改進的 JSON 解析功能和新的文本嵌入模型，使你可以更靈活地處理大文本數據和結構化的 JSON 響應。你可以使用 cURL 或 Python SDK 支持的交互功能。

import requests

url = "https://gemini.api.google.com/v1/json-parser"
headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}
payload = {
    "json_input": {"example_key": "example_value"}
}
response = requests.post(url, headers=headers, json=payload)
print(response.json())

跨模態轉換的使用：
現在可以與 Gemini API 互動，將音頻、視頻和文本，甚至圖片進行交互，功能適用范圍大大擴展。