1秒鎖定7500萬債務黑洞,OpenAI o系列模型7大實際應用案例
今早5點,OpenAI分享了o系列模型的7大實際應用場景,包括處理模糊任務、從海量信息中提取關鍵信息、復雜文檔推理與決策、多流程AIAgent、視覺推理、代碼審查以及性能評估。
在這些實際案例中,一家金融分析平臺通過o系列模型成功找出了影響收購的關鍵變更條款,幫助公司節省了7500萬美元。
此外,還解讀了o系列推理模型與效率型GPT系列模型的區別,幫助你在實際應用中該如何高效選擇這兩種模型。
7大實際應用場景
處理模糊任務
推理模型在處理模糊任務方面表現卓越。能夠憑借有限或零散的信息,通過簡單的提示,理解用戶的意圖,并處理指令中的信息缺口。Hebbia,一家專注于法律和金融領域的AI知識平臺公司,使用o1模型處理復雜文檔。
在處理信用協議時,o1模型僅通過一個基本提示,就能輕松識別出在受限支付能力下可用的籃子。與其他模型相比,o1在處理復雜提示時,在密集的信用協議上有52%的情況能夠產生更優的結果。
從海量信息中提取關鍵信息
在面對大量非結構化信息時,推理模型能夠準確理解并提取出最相關的信息來回答問題。Endex,一家AI金融情報平臺,在分析一家公司的收購案時,使用o1模型審查了數十份公司文件,如合同和租約。
o1模型成功地找出了可能影響交易的關鍵條款,在文件腳注中發現了一個至關重要的“控制權變更”條款。如果公司被出售,必須立即償還7500萬美元的貸款。這一發現充分體現了o1模型在海量信息中精準篩選關鍵信息的能力,為金融專業人士提供了有力的支持。
挖掘復雜數據關系
推理模型擅長對包含大量密集、非結構化信息的復雜文檔進行推理,如法律合同、財務報表和保險索賠等。BlueJ,一家AI稅務研究平臺,在稅務研究中需要綜合多個文檔得出最終合理的答案。
在將GPT-4o更換為o1模型后,發現o1在推理文檔之間的相互作用以得出邏輯結論方面表現更為出色,這些結論在單個文檔中并不明顯。通過使用o1模型,BlueJ的端到端性能提升了4倍,這一顯著的效果證明了o1模型在挖掘復雜數據關系方面的優勢。
推理模型在處理復雜的金融場景時也表現出色。BlueFlameAI,一家投資管理AI平臺,在測試不同模型處理有關股東權益的復雜問題時發現,o1和o3-mini能夠完美地處理諸如融資對現有股東的影響,特別是在股東行使反稀釋特權時的復雜計算。
這些問題即使是頂級金融分析師也需要花費20-30分鐘才能解決,而o1和o3-mini不僅能夠準確計算,還能生成清晰的計算表展示對10萬美元股東的影響。這一成果展示了推理模型在金融分析領域的巨大潛力,為投資決策提供了更準確、高效的支持。
多步驟智能規劃
推理模型在多步驟智能規劃中起著關鍵作用。ArgonAI,一家為制藥行業服務的AI知識平臺,使用o1作為其代理基礎設施中的規劃器。
o1能夠精心安排工作流程中的其他模型,將大問題分解為較小的子問題,并選擇合適的數據類型,讓其他模型專注于執行。在藥物研發的復雜過程中,o1模型可以根據研究目標和現有數據,制定詳細的研究計劃,包括選擇合適的實驗方法、安排實驗步驟以及確定數據分析方法等,從而提高研發效率。
Lindy.AI,一款工作AI助手,也使用o1模型為其許多代理工作流程提供動力。o1模型通過函數調用從用戶的日歷或電子郵件中提取信息,然后自動幫助用戶安排會議、發送電子郵件和管理日常任務。
在將出現問題的代理步驟切換到o1后,Lindy.AI的代理表現得到了顯著提升,幾乎達到了完美的程度。這一應用展示了推理模型在智能辦公領域的實際價值,為用戶提供了更加便捷、高效的工作體驗。
視覺推理新突破
目前,o1是唯一支持視覺能力的推理模型。與GPT-4o相比,o1在處理具有挑戰性的視覺內容方面表現出色,如結構模糊的圖表、表格以及質量較差的照片。Safetykit,一家AI商家監測平臺,在自動化風險和合規審查數百萬在線產品時發現,GPT-4o在最難的圖像分類任務上準確率僅為50%,而o1在無需對其流程進行任何修改的情況下,準確率達到了令人矚目的88%。
這一巨大的差距凸顯了o1模型在視覺推理方面的優勢,為電商平臺的商品監測提供了更可靠的解決方案。
OpenAI內部測試顯示,o1能夠從高度詳細的建筑圖紙中識別固定裝置和材料,生成全面的材料清單。o1還能在不同圖像之間進行關聯,通過建筑圖紙某一頁的圖例,正確地應用到另一頁,即使沒有明確的指令。這一能力在建筑設計和施工領域具有重要的應用價值,能夠提高設計和施工的準確性和效率。
代碼審查與優化
推理模型在代碼審查和提高代碼質量方面非常有效。CodeRabbit,一家AI代碼審查初創公司,在GitHub和GitLab等平臺上提供自動化AI代碼審查服務。代碼審查過程對延遲不太敏感,但需要理解多個文件中的代碼差異。o1模型在這方面表現出色,能夠可靠地檢測到人類審查員可能忽略的代碼庫中的微小變化。在切換到o系列模型后,CodeRabbit的產品轉化率提高了3倍,這一數據充分證明了推理模型在代碼審查領域的價值。
Codeium,一家AI代碼擴展初創公司發現,o3-mini在代碼生成方面表現出色,對于定義明確的問題,即使是非常具有挑戰性的編碼任務,o3-mini也能經常生成高質量、確定性的代碼,并找到正確的解決方案。相比之下,其他模型可能只適用于小規模、快速的代碼迭代,而o3-mini在規劃和執行復雜軟件設計系統方面具有明顯優勢。這表明o3-mini在軟件開發的全流程中都能發揮重要作用,為開發者提供更強大的支持。
模型響應評估與基準測試
推理模型在評估和基準測試其他模型的響應方面也表現出色。Braintrust,一家AI評估平臺,許多客戶在評估過程中使用“大語言模型作為評判者”的方法。例如,一家醫療保健公司可能使用像gpt-4o這樣的模型來總結患者問題,然后使用o1來評估總結的質量。
在一個實際案例中,使用o1作為評判者后,F1分數從使用4o時的0.12提高到了0.74。這一顯著的提升表明,o1在發現完成結果中的細微差異方面具有獨特的優勢,為模型評估提供了更準確、更智能的方法,尤其適用于最困難和最復雜的評分任務。
o與GPT系列模型的功能差異
o系列模型可稱為“規劃者”。它們經過專門訓練,在面對復雜任務時,能夠進行長時間、深入的思考。這種特性使得o系列模型在制定策略、規劃復雜問題解決方案以及基于大量模糊信息做出決策等方面表現出色。
以數學領域為例,在解決復雜的微積分證明題時,o系列模型可以從多個定理和公式中篩選出合適的內容,逐步構建出嚴謹的證明過程。在工程領域,當設計一個大型建筑結構時,o系列模型能綜合考慮各種因素,如地理環境、建筑用途、材料性能等,制定出最優的設計方案。此外,o系列模型執行任務的準確性和精度極高,在金融服務和法律服務等對專業性要求極高的領域,它們能夠勝任原本需要人類專家才能完成的工作。
GPT模型則像是“工作馬”,具有較低的延遲和較高的成本效益,更適合用于執行簡單直接的任務。在一些對速度要求較高的場景中,如實時聊天機器人的回復生成,GPT模型能夠快速給出回應,滿足用戶即時交互的需求。在文本內容的簡單格式轉換任務中,GPT模型也能高效完成,以較低的成本實現任務目標。
該如何選擇合適的模型
在實際應用中,選擇合適的模型至關重要。如果項目對速度和成本最為看重,且任務簡單明確,那么GPT模型無疑是最佳選擇。例如在一個新聞資訊類APP中,需要快速對用戶的簡單查詢(如查詢某明星的基本信息)做出回應,GPT模型憑借其快速的處理速度和較低的成本,能夠很好地滿足需求。若任務側重于執行明確界定的任務,例如按照特定格式對數據進行整理,GPT模型也能輕松應對。
但當準確性和可靠性是關鍵因素,且需要解決復雜的多步驟問題時,o系列模型則更為合適。在醫療診斷輔助系統中,醫生上傳患者的各種檢查報告,o系列模型可以對這些信息進行深入分析,準確判斷患者的病情,并給出合理的診斷建議。在科學研究領域,面對復雜的實驗數據和理論問題,o系列模型也能發揮其優勢,幫助科研人員得出準確可靠的結論。
在大多數AI工作流程中,往往會結合使用這兩種模型。o系列模型負責智能規劃和決策,GPT模型則專注于具體任務的執行。
以一個電商智能客服系統為例,o系列模型根據用戶的問題,制定解決問題的策略和步驟,然后選擇合適的GPT模型去執行具體的任務,如查找商品信息、處理訂單等,從而實現高效的客戶服務。
推理模型提示技巧
推理模型擅長理解和回應簡潔明了的指令。在編寫提示時,應避免冗長復雜的表述,盡量用簡短、清晰的語言表達需求。
例如,在讓模型分析一段文本的情感傾向時,直接輸入 “分析這段文本的情感傾向”,比使用復雜的表述 “請你仔細閱讀以下這段文本,從語義、語境、詞匯使用等多個方面綜合分析,判斷其傳達的是積極、消極還是中性的情感傾向” 更能讓模型快速準確地理解任務。
由于推理模型內部已經具備強大的推理能力,因此無需使用 “一步一步思考” 或 “解釋你的推理過程” 等思維鏈提示。這些提示不僅可能無法提升模型性能,有時還會起到反作用。在實際應用中,應相信模型的內部推理機制,直接提出明確的任務要求即可。
使用分隔符如 Markdown、XML 標簽和章節標題等,可以清晰地指示輸入的不同部分,幫助模型正確解釋各個部分的內容。
在輸入包含文本描述和示例的提示時,可以使用 Markdown 的分隔符將描述和示例分開,如 “任務描述:分析文本主題。示例:[文本 1],主題:科技發展;[文本 2],主題:文化傳承”,這樣模型能夠更清晰地理解任務和示例之間的關系,提高回答的準確性。
在指令中,應盡量為成功的響應設定非常具體的參數,鼓勵模型不斷推理和迭代,直到滿足成功標準。例如,在讓模型創作一篇文章時,可以明確規定文章的主題、字數、風格要求等參數,讓模型清楚知道需要達到的目標,從而創作出更符合期望的文章。