Google 正式發布 Gemini 2.5 系列穩定模型
Google 宣布,Gemini 2.5 Pro 與 Gemini 2.5 Flash 現已進入穩定狀態并全面上線。同時,Google 還推出了全新的 Gemini 2.5 Flash-Lite(預覽版) ——這是目前最快、最具成本效益的 Gemini 2.5 模型。
Gemini 2.5 Pro(穩定版)
- 推理能力增強:模型具備“思考預算”機制,可在響應前先進行“思考”,提高整體準確率,尤其在數學與科學類基準測試中表現優異。
- 原生多模態處理能力:支持文本、圖像、音頻、視頻等輸入輸出,并按格式計費。
- 上下文窗口擴大至 100 萬 token:適用于長文檔處理與多輪對話。
- 原生音頻(預覽):支持實時語音輸出,可在 24 種語言間自然切換,并具備語氣控制、環境噪音過濾能力。
- 高級代碼能力:在 Web 開發相關任務中表現突出,在 WebDev Arena 等基準測試中得分領先。
- 工具調用能力:支持實時信息訪問、代碼執行、結構化輸出、函數調用、搜索增強等功能。
Gemini 2.5 Flash(穩定版)
- 價格優化:輸出 token 成本從 降至2.50 /百萬,輸入成本略升至 $0.30 /百萬。
- 統一計價模型:取消了“思考”與“非思考”之間的計費區分,簡化開發流程。
Gemini 2.5 Flash-Lite(預覽版)
- 主打速度與低延遲:相比舊版 Flash 模型,Flash-Lite 提供更快響應、更低首 token 延遲。
- 默認關閉思考模式:以壓縮成本為優先,開發者可通過 API 參數開啟推理模式。
- 支持核心工具能力:包括代碼執行、搜索增強、URL 上下文引用、函數調用等。
- 適合場景:高吞吐量任務,如文本分類、摘要、輕量對話系統等。
性能對比(思考 vs 非思考模式)
任務類型 | Flash-Lite 非思考 | Flash-Lite 啟用思考 |
數學推理 | 49.8% | 63.1% |
編碼能力 | 33.7% | 34.3% |
長上下文處理 | 16.6% | 30.6% |
圖像理解與多語言任務 | 普通表現 | 明顯提升 |
簡單摘要/分類任務 | 84.1% | 86.8% |
對于性能敏感型項目,可默認關閉推理,以獲得最大吞吐率;在需要更高準確率場景下再開啟推理模式,實現靈活折中。
如何訪問 Gemini 2.5 模型?
途徑一:Gemini Chat App
在左上角模型選擇器中可切換至 2.5 Pro 或 2.5 Flash 模型使用。
途徑二:Google AI Studio
可自定義溫度、思考模式、預算等高級參數,適合開發者調試及部署。
途徑三:Google Vertex AI API
通過 Vertex AI 提供的 API 接口接入 Gemini 2.5 系列模型,支持 CLI 或 Python 等方式調用。
示例(Python 接入 Gemini 2.5 Pro):
from google import genai
from google.genai import types
client = genai.Client(vertexai=True, project="YOUR_PROJECT_ID", locatinotallow="global")
response = client.models.generate_content(
model="gemini-2.5-pro",
cnotallow=[
"What is shown in this image?",
types.Part.from_uri(
file_uri="gs://generativeai-downloads/images/scones.jpg",
mime_type="image/png",
),
],
)
print(response.text)
開發者注意事項
- Gemini Pro Preview 05–06 將于 2025 年 6 月 19 日下線;
- Preview 06–05 用戶需更新模型 ID 至
"gemini-2.5-pro"
; - 建議升級舊版 Flash 1.5/2.0 用戶至 Flash-Lite,以獲取更快速度與更優性價比。
小結
Gemini 2.5 的發布表明 Google 正在持續加碼生成式 AI 模型的產品化與實用化。無論是 Pro 版本的推理能力與多模態支持,還是 Flash-Lite 的極致效率,在 AI 工具開發者社區中都具有廣泛應用潛力。
開發者可根據自身項目需求,在 Pro 深度推理能力與 Flash-Lite 高吞吐性能之間做出靈活選擇。