Google AI 推出 Gemini 1.5 Pro API 全面提升開發者體驗 原創
Gemini 1.5 Pro 現已在全球公測,帶來多項關鍵更新
Gemini 1.5 Pro 現已在超過 180 個國家或地區的 Gemini API 公測環境中提供,引入了官方改進的音頻/視頻(語言)理解能力和新的文件 API,以便于實時大文件訪問。此外,還增加了多套綜合的 JSON 解析器架構,給予開發者更多控制與調試的功能。最后,發布了性能優越的下一代文本嵌入模型。
主要更新內容
全球可用性:
Gemini 1.5 Pro 現已在超過 180 個國家或地區的 Gemini API 公測環境中提供,使得全球開發者都能訪問并利用這一新型模型。
官方音頻/視頻(語言)理解能力:
引入了官方改進的音頻(語言)理解能力,意味著 Gemini 1.5 Pro 能夠更精確地解析和理解音頻輸入,為開發者提供更豐富的語言識別和處理工具。
新的文件 API:
新增的文件 API 使得文件大小不再成為限制,開發者能夠更高效地處理應用中的大文件傳輸,視頻和音頻文件的處理。
JSON 解析:
升級了 JSON 能力,包括多套綜合的 JSON 解析器架構,極大地提高了數據解析的精度和性能。
功能和接口:
改進了功能和接口調用,開發者可以選擇不同的接口實現功能調試,增強了系統接口的靈活性和適用性。
新的文本嵌入模型:
推出了性能優越的最新一代文本嵌入模型(text-embedding-004),在 MTEB 基準測試中顯示出比前幾代模型更優越的綜合性能,為文本分析和語義理解提供了強大的支持。
更廣泛的輸入格式支持:
Gemini 1.5 Pro 擴展了對不同輸入格式的支持,包括音頻和視頻,并計劃很快支持圖片內容和語言(語言)跨模態轉換的 API 交互,為開發者提供更多元化的應用可能。
這些更新不僅展示了 Google 對 AI 技術不斷創新的承諾,也為開發者提供了更多工具和資源,以便更好地構建和優化他們的應用程序和服務。
如何使用 Gemini 1.5 Pro?
創建 API 密鑰:
在 Google AI Studio 創建或申請測試的 API 密鑰,開始構建。
查看和使用擴展的音頻/視頻(語言)能力:
在 Gemini API 和 Google AI Studio 中查看擴展的音頻和視頻(語言)理解能力。支持通過上傳到 Google AI Studio 的視頻和音頻自動翻譯的音頻輸入,API 交互的潛力巨大。
配置 API 調用:
在 Google AI Studio 的 Gemini API 中,通過交互式的分析與管理控制臺創建、定義角色、格式、時間和規則,以便于理解不同的輸入格式和行為。
JSON 解析:
查看和使用改進的 JSON 解析功能和新的文本嵌入模型,使你可以更靈活地處理大文本數據和結構化的 JSON 響應。你可以使用 cURL 或 Python SDK 支持的交互功能。
import requests
url = "https://gemini.api.google.com/v1/json-parser"
headers = {
"Authorization": "Bearer YOUR_API_KEY",
"Content-Type": "application/json"
}
payload = {
"json_input": {"example_key": "example_value"}
}
response = requests.post(url, headers=headers, json=payload)
print(response.json())
跨模態轉換的使用:
現在可以與 Gemini API 互動,將音頻、視頻和文本,甚至圖片進行交互,功能適用范圍大大擴展。
申請 Gemini 1.5 Pro API 步驟
訪問 Google AI Studio:
打開瀏覽器,訪問 Google AI Studio。
創建賬號或登錄:
使用 Google 賬號登錄,若沒有賬號,請先注冊。
申請 API 密鑰:
在主頁上選擇“創建項目”。輸入項目名稱并選擇相關設置。在項目設置中選擇“API 與服務”,然后選擇“創建 API 密鑰”。
預充值:
輸入預充值金額,最低為 5 美元。
配置和測試 API:
在 API 控制臺中配置所需的 API 服務。使用提供的 API 密鑰在開發環境中進行測試和開發。
Gemini 1.5 Pro 帶來了顯著的改進和新功能,為開發者提供了強大的工具和更大的靈活性,幫助他們在全球范圍內更高效地開發和優化應用程序。通過詳細的 API 調用和配置步驟,開發者可以輕松上手并充分利用這些新特性。
