譯者 | 晶顏
審校 | 重樓
業務領導者一直深感壓力,他們需要找到將生成式人工智能(GenAI)納入其戰略的最佳方式,以便為其組織和利益相關者帶來最佳收益。根據Gartner的調查,38%的業務領導者指出,客戶體驗和留存率是他們投資GenAI的主要目的,這對其業務的未來至關重要。然而,盡管這看起來很誘人,但在制定人工智能戰略之前,考慮LLM是否適合您的業務同樣至關重要。
雖然市場上的LLM選項很多且易于訪問,但有效使用現成的LLM卻存在諸多挑戰。這些問題包括缺乏個性化的客戶體驗,外包嵌入模型的成本增加,以及由于與外部共享數據而引發的隱私問題。訓練內部AI模型可以直接解決這些問題,同時還可以激發團隊內部的創造力和創新精神,以便將該模型用于其他項目。一旦您決定需要一個特定領域的人工智能,那么在開始創建自己的內部模型之前,您應該先問問自己以下五個關鍵問題。
問題1:您面臨的業務問題是什么?人工智能如何解決這個問題?
在深入研究基礎模型和LLM之前,您需要先確定自己想要解決的問題。確定這一點將幫助您更好地決定自己需要哪些自然語言任務。這些任務的示例包括摘要、命名實體識別、語義文本相似性和問題回答等。
下游任務(Downstream Task)和領域意識(Domain Awareness)完全是兩碼事,了解它們的區別很重要。盡管它們很流行,但像GPT、Llama和PaLM這樣的LLM模型只適用于下游任務(比如問答和總結),它們通常需要很少的提示或額外的微調。盡管基礎模型可以在更廣泛的上下文中很好地工作,但它們缺乏在大多數應用程序中運行所必需的行業或業務特定領域的專業知識。在下游任務中取得巨大的成果并不意味著它也將對您的特定行業具有領域意識。
問題2:是否已有特定于行業的人工智能工具可用?
作為人工智能戰略研究階段的一部分,密切評估現有工具非常重要,因為其中一些工具可能是針對特定行業的,但仍忽略了您業務的具體細微差別。當審計可用的工具時,重點是確保AI模型能夠理解上下文,以及您所選語言中的單詞,以最好地掌握提示并生成與用戶相關的響應。
舉個例子,一家公司在經過研究和測試后發現,缺乏專門針對第三方風險的強大網絡安全LLM。因此,其團隊便選擇了一個基于BERT的模型來進行網絡安全微調。此外,在構建人工智能模型時,他們注意到,當分析網絡安全領域的各種文本時,結果始終落在一個特定的范圍內。分析后發現其使用的基礎模型將文本視為同質的,并將相似性歸因于其源自同一領域。最終,他們努力為模型提供了網絡安全行業的背景和細微差別,才成功解決了LLM模型缺乏領域意識的問題。
除此之外,上下文/情境也很重要,因為即使在今天,GenAI在特定問題上也會產生“幻覺”,不應該100%信任。這也是拜登-哈里斯政府發布關于安全、可靠和值得信賴的人工智能的行政命令的眾多原因之一。在使用人工智能工具作為服務之前,政府機構需要確保他們使用的服務是安全和值得信賴的,這一點通常并不明顯,也無法通過查看示例輸出集來捕獲。雖然行政命令不適用于私營企業,但這些組織如果要采取類似的政策,也應該考慮到這一點。
盡管與內部模型相關的訓練和微調過程將包括徹底的測試、弱點識別和模型分析,并且相當漫長,但從長遠來看,這是值得的。
問題3:您的數據準備好了嗎?
在訓練自己的LLM之前,組織的數據是最重要的資產。隨著時間的推移,那些積累了高質量數據的公司在今天的LLM時代無疑是最幸運的,因為幾乎每個過程的每一步都需要數據,包括訓練、測試、再訓練和beta測試。在訓練LLM時,高質量的數據是成功的關鍵,因此考慮這真正意味著什么很重要。答案當然會根據任務和領域的不同而變化,但一般規則是,需要最少管理和更少再訓練的數據。
一旦公司開始訓練LLM,他們通常會發現其數據在很多方面還沒有準備好。由于專家選擇不佳或分配給專家的時間有限,數據可能會變得過于嘈雜,或無效標記。或者數據可能包含隱藏的重復,這些重復對訓練過程提供最小(甚至沒有)的價值,并且不能完全代表領域或任務,這可能導致最終的AI模型過擬合(overfit)。
數據很容易成為項目的瓶頸,這一點很重要,因為它需要花費大量的時間來組織。有時,甚至可能需要數年時間,數據才能真正為人工智能做好準備。
問題4:您有足夠的專家來訓練人工智能模型嗎?
專家在生成數據和確定數據質量方面發揮著重要作用。因為我們仍然需要人類來生成可靠的數據,這些數據將在訓練過程中使用。合成生成的數據集確實存在,但除非經過人類專家的評估和鑒定,否則這些數據集是沒有用的。
在選擇專家時,建議選擇具有深厚行業知識的人(內部專家或外包專家)來微調您的模型。更具體地說,您將需要專家來標記數據,給出關于數據的反饋,測試數據,并根據反饋進行再訓練。這是通過訓練有素的人工智能模型獲得準確、可靠結果的重要部分。
問題5:您的時間限制是什么?
訓練內部人工智能模型是一個昂貴而漫長的過程。業務問題、現成可用數據的質量以及所涉及的專家和人工智能工程師的數量都會影響項目的長度和質量。因為這個過程依賴于試錯,所以在解決方案準備好使用之前需要更長的時間。
除了可能源于數據的問題之外,在設置訓練算法的超參數(hyperparameter)時還可能出現其他挑戰,例如學習率、epoch數量和層數。這就是人工智能專家可能需要重新設計的地方,以解決在測試階段明顯出現的過擬合和災難性遺忘問題,這可能會花費項目額外的時間。
盡管經過深思熟慮的過程可以減少壓力,但始終存在出現新LLM解決方案淘汰舊解決方案的風險。考慮到人工智能技術的快速發展,組織需要在時機和質量之間尋求平衡。
與許多創新解決方案一樣,沒有“放之四海而皆準”的方法。在開始公司的人工智能之旅時,權衡適合您業務的模型是第一步。對于業務領導者來說,從頭開始訓練LLM可能聽起來令人望而生畏,但如果您有通用LLM無法解決的特定領域的“業務問題”,那么從長遠來看,這將是值得投資的選擇。
原文標題:Is creating an in-house LLM right for your organization?,作者: Gokcen Tapkan