企業如何安全地找到實用的GenAI用例
AI,特別是GenAI和大型語言模型,已經在技術上取得了巨大的進步,并正在到達行業廣泛采用的拐點。麥肯錫的報告稱,AI領域的佼佼者已經在“全力以赴”,企業知道,他們必須接受最新的AI技術,否則就會被甩在后面。
然而,AI安全領域仍然不成熟,這給使用該技術的企業帶來了巨大的風險。AI和ML出現錯誤的例子并不難找到。在從醫學到執法的各個領域,原本應該是公正和不偏不倚的算法被暴露為存在隱藏的偏見,進一步加劇了現有的社會不平等,給它們的制定者帶來了巨大的聲譽風險。
微軟的Tay聊天機器人可能是對企業最著名的警示故事:它被訓練成用十幾歲的口頭禪說話,然后被互聯網巨魔重新訓練,吐出未經過濾的種族主義厭女者的膽汁,很快就被這位尷尬的科技巨頭下架——但在造成聲譽損害之前。即使是大肆吹噓的ChatGPT也被稱為“比你想象的更愚蠢”。
企業領導人和董事會明白,他們的企業必須開始利用GenAI的革命性潛力,但是,當他們在AI安全問題的雷區運營時,他們是如何開始考慮識別初始用例和原型的呢?
答案在于關注一個我稱之為“干草堆中的針”問題的類用例。對于人類來說,搜索或生成潛在的解決方案相對困難,但驗證可能的解決方案相對容易。由于其獨特的性質,這些問題非常適合早期的行業用例和采用,而且,一旦我們認識到這種模式,我們就會意識到干草堆問題比比皆是。
以下是一些應用場景和案例:
1、文案編輯
檢查一份長篇文件的拼寫和語法錯誤是很困難的。雖然從Word的早期起,計算機就能夠發現拼寫錯誤,但在AI出現之前,準確地找到語法錯誤被證明是更加難以捉摸的,即使是這些錯誤也經常錯誤地將完全有效的短語標記為不符合語法的。
我們可以看到復制編輯是如何適用于干草堆范例的。人類可能很難在一份冗長的文檔中發現語法錯誤,一旦AI發現了潛在的錯誤,人類就很容易驗證它們是否確實不符合語法,這最后一步是至關重要的,因為即使是現代的AI工具也不完美。像Grammarly這樣的服務機構已經在利用大語言模型來做到這一點。
2、編寫樣板代碼
編寫代碼最耗時的方面之一是學習新API或庫的語法和約定,這個過程需要大量研究文檔和教程,而且每天都有數以百萬計的軟件工程師重復這個過程。利用在這些工程師編寫的集體代碼上接受培訓的GenAI,Github Copilot和Tabine等服務已經自動執行了按需生成樣板代碼的繁瑣步驟。
這個問題非常符合干草堆的范例。雖然人類在不熟悉的庫中生成工作代碼所需的研究工作很耗時,但驗證代碼是否正確工作相對容易(例如,運行它)。最后,與其他AI生成的內容一樣,工程師必須在將代碼交付生產之前進一步驗證代碼是否按預期工作。
3、搜索科學文獻
即使對于訓練有素的科學家來說,跟上科學文獻也是一項挑戰,因為每年發表的論文有數百萬篇,然而,這些論文提供了一座科學知識的金礦,只要他們的知識能夠被處理、吸收和結合,專利、藥物和發明就隨時可以被發現。
尤其具有挑戰性的是跨學科洞察,它需要兩個往往互不相關的領域的專業知識,而掌握這兩個學科的專家寥寥無幾。幸運的是,這個問題也適用于干草堆課程:通過閱讀引出這些想法的論文來檢查潛在的AI產生的新想法要容易得多,而不是產生散布在數百萬科學作品中的新想法。
而且,如果AI能夠像學習數學一樣粗略地學習分子生物學,它將不會受到人類科學家面臨的學科限制的限制。像排版這樣的產品已經是朝這個方向邁出的有希望的一步。
人類驗證至關重要
上述所有用例中的關鍵洞察是,雖然解決方案可能是AI生成的,但它們始終是經過人類驗證的。讓AI代表一家大企業直接與世界對話(或在世界上采取行動)是可怕的風險,歷史上充滿了過去的失敗。
讓人工驗證AI生成的內容的輸出對于AI的安全至關重要。對干草堆問題的關注改進了對人工驗證的成本效益分析,這讓AI專注于解決人類難以解決的問題,同時保留了人類操作員簡單但關鍵的決策和復核。
在低成本管理的這些新生日子里,專注于干草堆用例可以幫助企業建立AI體驗,同時緩解潛在的嚴重的AI安全問題。