AI尚處于早期階段:僅有25%的企業部署了該技術,很少有企業獲得回報
2025年有望成為AI真正落地的一年,AI為企業帶來具體且切實的利益。
然而,根據AI開發平臺Vellum發布的一份最新《AI發展狀態報告》,我們離這一目標還有一段距離:僅有25%的企業已將AI部署到生產環境中,而其中只有四分之一的企業看到了可衡量的影響。
這似乎表明,許多企業尚未找到AI的可行應用場景,因此它們(至少目前)仍處于預構建階段的持幣觀望狀態。
“盡管外界炒作和討論不斷,但這強化了一個事實,即我們仍處于非常早期的階段,”Vellum的CEO Akash Sharma告訴記者,“行業里噪音很多,新的模型和模型提供商層出不窮,新的檢索增強生成(RAG)技術也不斷涌現,我們只是想了解一下,企業實際將AI部署到生產環境中的情況。”
企業必須找到具體的應用場景才能取得成功
Vellum采訪了超過1250名AI開發者和構建者,以真實了解AI領域的現狀。
企業在AI之旅中處于不同階段——制定和評估戰略及概念驗證(PoC)(53%)、進行beta測試(14%),以及在最低層次上,與用戶溝通并收集需求(7.9%)。
Vellum表示,迄今為止,大多數企業都專注于構建文檔解析和分析工具以及客戶服務聊天機器人,但它們也對結合自然語言分析、內容生成、推薦系統、代碼生成與自動化、研究自動化等應用感興趣。
迄今為止,開發者報告稱,他們看到的最大影響包括競爭優勢(31.6%)、成本和時間節省(27.1%)以及更高的用戶采用率(12.6%),然而,有趣的是,24.2%的開發者表示,他們尚未看到投資帶來的任何有意義的影響。
Sharma強調了從一開始就確定優先級應用場景的重要性。“我們常聽到人們說,他們只是想為了使用AI而使用AI,”他說,“這與實驗預算相關。”
他指出,雖然這讓華爾街和投資者感到高興,但并不意味著AI實際做出了任何貢獻。“大家普遍應該思考的是,‘我們如何找到合適的應用場景?通常,一旦企業能夠確定這些應用場景,將其投入生產并看到明確的投資回報,它們就會獲得更多動力,超越炒作階段,這將帶來更多的內部專業知識、更多的投資。”
OpenAI仍領先,但未來將是多種模型的混合
在使用的模型方面,OpenAI保持領先地位(這并不奇怪),尤其是其GPT 4o和GPT 4o-mini,但Sharma指出,2024年提供了更多選擇,無論是直接來自模型創建者,還是通過Azure或AWS Bedrock等平臺解決方案。此外,提供托管開源模型(如Llama 3.2 70B)的供應商也越來越受歡迎,例如Groq、Fireworks AI和Together AI。
“開源模型正在變得越來越好,”Sharma說,“在質量方面,OpenAI的閉源競爭對手正在迎頭趕上。”
然而,他預測,最終企業不會僅局限于使用一種模型,而是將越來越多地依賴多模型系統。
“人們將為手頭的每項任務選擇最佳模型,”Sharma說,“在構建代理時,你可能會有多個提示,對于每個單獨的提示,開發者都希望獲得最佳質量、最低成本和最低延遲,而這可能來自也可能不來自OpenAI。”
同樣,AI的未來無疑是多模態的,Vellum看到能夠處理各種任務的工具采用率激增。文本是無可爭議的首要應用場景,其次是文件創建(PDF或Word)、圖像、音頻和視頻。
此外,在信息檢索方面,檢索增強生成(RAG)是首選,超過一半的開發者使用向量數據庫來簡化搜索。頂級的開源和專有模型包括Pinecone、MongoDB、Quadrant、Elastic Search、PG vector、Weaviate和Chroma。
全員參與(不僅限于工程部門)
有趣的是,AI正在超越IT領域,并在企業中實現民主化(類似于“眾人拾柴火焰高”的道理)。Vellum發現,雖然工程部門在AI項目中的參與度最高(82.3%),但領導層和高管(60.8%)、主題專家(57.5%)、產品團隊(55.4%)和設計部門(38.2%)也在參與其中。
Sharma指出,這主要是因為AI易于使用(以及人們對它的普遍興奮)。
“這是我們第一次看到軟件以非常跨職能的方式開發,尤其是因為提示可以用自然語言編寫,”他說,“傳統軟件通常更傾向于確定性,而這是非確定性的,因此吸引了更多人參與開發。”
2025年將是克服關鍵挑戰的“AI工具年”
盡管如此,企業仍面臨重大挑戰——尤其是AI幻覺和提示問題、模型速度和性能、數據訪問和安全性,以及獲得重要利益相關者的支持。
同時,Sharma指出,雖然更多非技術用戶正在參與其中,但企業內部仍然缺乏純粹的技術專業知識。“連接所有不同部分的方式仍然是一項技能,而今天并沒有那么多開發者具備這項技能,”他說,“因此,這是一個共同的挑戰。”
然而,Sharma指出,許多現有挑戰可以通過工具或平臺和服務來克服,這些工具或平臺和服務可以幫助開發者評估復雜的AI系統。開發者可以在內部或使用第三方平臺或框架進行工具化;然而,Vellum發現,近18%的開發者在定義提示和編排邏輯時完全沒有使用任何工具。
Sharma指出,“當你有合適的工具引導你完成開發過程時,技術專業知識的缺乏就不再是一個[那么大的]問題了。”除Vellum外,調查參與者使用的框架和平臺還包括LangChain、Llama Index、Langfuse、CrewAI和Voiceflow。
評估和持續監控至關重要
克服常見問題(包括幻覺)的另一種方法是進行評估,或使用特定指標來測試響應的正確性。“但盡管如此,[開發者]并沒有像他們應該的那樣一致地進行評估。”Sharma說。
他表示,特別是在涉及高級代理系統時,企業需要可靠的評估流程。Sharma指出,AI代理具有高度非確定性,因為它們會調用外部系統并執行自主操作。
“人們正試圖構建相當先進的系統、代理系統,而這需要大量測試用例和某種自動化測試框架,以確保其在生產中可靠運行。”Sharma說。
雖然一些開發者正在利用自動化評估工具、A/B測試和開源評估框架,但Vellum發現,超過四分之三的開發者仍在進行手動測試和審查。
“手動測試只是需要時間,對吧?而且手動測試中的樣本量通常遠低于自動化測試所能做到的,”Sharma說,“可能在技術意識方面存在挑戰,即如何進行自動化、大規模評估。”
最后,他強調了擁抱云到應用程序編程接口(API)等協同工作的系統組合的重要性。“建議將AI視為工具包中的一種工具,而不是解決一切問題的神奇方案。”他說。