GenAI 時代,數據唾手可得,但真正的挑戰已經轉變... 原創
編者按: 在人工智能發展的新階段,我們該如何看待數據的角色與價值?當生成式 AI 讓數據唾手可得,專業領域的“數據護城河”究竟該如何構建?
我們今天為大家帶來的文章,作者的觀點是:在生成式 AI 時代,數據從未失去其“黃金屬性”,只是淘金(價值挖掘)的方式變了。
文章以大數據時代與 AI 時代的對比為切入點,指出傳統的數據收集模式已被顛覆——大語言模型(LLM)不僅降低了內容生成成本,還通過高頻交互創造了海量高價值對話數據。文章指出現在的核心挑戰不再是數據獲取本身,而是如何處理由用戶高頻交互產生的海量高價值對話數據。
作者 | Vikram Sreekanti and Joseph E. Gonzalez
編譯 | 岳揚
回到 2010 年代,大數據曾風靡一時。正如那句名言(部分引用——此處不展示全文)所說:"everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.(人人掛在嘴邊,卻無人真懂其道;都以為別人在做這件事,于是紛紛聲稱自己也在做這件事。)"我們確信,如今從事 AI 工作的各位對這種現象完全陌生。
在那個時代,一切都是為了收集數據,然后進行分析并最終用于機器學習。大規模收集數據并利用這些數據打造更好產品體驗的能力,正是谷歌和 Facebook 增長的核心動力。
來源:GPT-4o。這算不算吉卜力風格???
生成式 AI 熱潮的迷人之處在于,它讓數據收集已不再像 10-15 年前那樣具有商品屬性。 如今的 LLM 只需幾分錢就能生成海量看似合理的內容,而 AI 應用天生就具備創建和處理超出人類認知極限的信息能力。
現在,你只需不到一美分的成本,就能獲得高度個性化的、非常詳細的答案,這在過去是根本無法實現的。如果你像我們一樣對人工智能情有獨鐘,那么可能已經對傳統搜索方式(不得不翻閱文檔或點擊谷歌搜索結果)的局限性感到極度沮喪。人工智能這種定制化的優勢顯而易見:我們幾乎瞬間就能提高工作效率。但更耐人尋味的是其“附加作用” —— 它所產生的數據不僅數量豐富,而且質量高、價值大,就像一個裝滿珍貴寶藏的寶庫一樣。當今的關鍵問題不再是數據是否可得,而在于如何處理那些必將收集到的數據。
我們在 RunLLM 的經歷完美印證了這一點。我們一次又一次地發現:一旦用戶意識到可以從我們這里獲得高質量、可靠的答案,每周提問量就會從幾十個激增至數千個。這種規模的數據量沒有任何團隊有時間逐條閱讀,但由于 LLM 的特性,其中蘊藏著大量有價值的信息。我們分析了這些對話,以期發現文檔中的問題和不足,識別產品缺陷,并收集客戶在其他反饋渠道沒有表達出來的功能需求。在很多方面,RunLLM 都能清晰地掌握著客戶的實際使用場景和痛點 —— 但若缺乏恰當的分析方法,這些洞見就會湮沒無聞。
簡而言之,大語言模型(LLMs)推動了用戶行為的變化(讓用戶更愿意提問或交互),這種高頻使用生成了海量對話數據,而這些數據中天然包含了用戶的真實需求和未被滿足的痛點。傳統場景下,人工無法處理如此龐大的數據,但 LLMs 的介入能從中挖掘出用戶行為模式或市場需求的變化,且 LLMs 又擁有前所未有的高精度分析能力。不過,若是不清楚自己的分析目標,這些數據就難以發揮作用。
遺憾的是,我們并沒有現成的完美原則能指引各位讀者精確鎖定數據中的關鍵信息。簡而言之,這需要大量實驗經驗、領域專業知識和客戶反饋的積累。過去兩年中,我們總結出的最有效方法之一,就是傾聽客戶這樣的反饋:"我瀏覽對話歷史時驚訝地發現..." 或者 "這段對話很有趣,因為我不知道文檔里寫著..."。在多次聽到類似的話之后,我們意識到這些發現(以及更多規劃中的自動化功能)可以通過自動化工具實現規模化處理。
不過,我們可以分享我們在探索如何更好地利用 RunLLM 所收集數據的過程中所獲得的經驗。雖然我們仍處于起步階段,但已經歷了(許多)錯誤,并對行業趨勢形成了一些假設判斷。
- 洞見很難獲取(Insights are hard)。生成優質洞見更是難上加難 —— 如果讓 LLM 自行發揮,很容易產生令人困惑、毫無幫助或高度抽象的“洞見”,這些洞見實際上對任何人都沒有價值。我們為此付出了慘痛教訓:令人尷尬的是,我們最初為 RunLLM 嘗試的主題建模(譯者注:topic modeling,自動分析和歸類 RunLLM 平臺上的用戶問題或對話,將它們分組到不同的主題類別中。)效果不佳 —— 客戶反饋我們最初生成的問題類別過于模糊,根本無法實際應用。
- 這些數據集是金礦(These datasets are gold)。雖然目前我們對如何利用這些數據還沒有最清晰的思路,但我們堅信,隨著時間的推移,這些數據集將成為 AI 公司所能建立的最具價值的護城河之一。當然,OpenAI 和 Anthropic 將擁有最廣的數據覆蓋面 —— 它們正在收集涵蓋體育、歷史、醫學到科學等通用對話主題的海量數據。但這些數據集明顯缺乏特定領域的專業知識:如今大多數(優秀)AI 應用成功的原因,恰恰在于它們能提供通用 LLM 無法生成的內容。這一點帶來兩個后續影響,即以下兩段:
- 第一,通用 LLM 無法在高度專業化的任務中取得更好的成績。能幫助它們改進這類任務的數據,根本不會流入大模型提供商手中。我們說的“高度專業化的任務”,指的并不是編程(LLM 在這方面顯然已非常擅長)—— 而是需要通用專業知識和領域經驗的任務,例如為復雜產品撰寫銷售郵件,或提供高度復雜的技術支持。
- 第二,AI 應用將逐步走向專業化。通用模型提供商所缺失的那些數據,正是專業應用能夠獲取并用來提升自身性能的資源,這意味著能為客戶提供更好的結果、更深入的洞察和創造更多的價值。隨著第一代 AI 應用公司站穩腳跟,質疑者將越來越難以聲稱“通用 LLM 也能完成同樣任務” —— 事實也將證明這絕無可能。
- 隱藏的挑戰在于數據標注(The hidden challenge is labeling)。本文尚未討論的一個核心問題是:如何判斷哪些數據足夠優質,可以作為構建 AI 應用或訓練模型的可靠基礎。像 Scale AI 這樣的公司通過提供高質量人工標注服務實現了令人難以置信的快速發展。雖然這種模式在通用數據領域有效,但隨著 AI 應用日趨專業化,這種模式將越來越難做好。與此同時,隨著可用數據量激增,我們需要找到一種更具可擴展性的數據標注方式。這遠不是一個已經解決的問題,但它將成為真正利用這些數據發揮作用時絕對關鍵的一環。
盡管數據在 2010 年代被視為關鍵資產,但真正能通過用戶增長構建數據護城河的企業極少 —— 谷歌是一個標桿,而其他效仿者大多失敗。對于 AI 應用而言,數據獲取已不再是障礙 —— AI 應用的本質決定了它們會持續生成有價值的、可操作的數據。
與任何復雜問題一樣,關于“該如何利用你的數據”并沒有唯一的正確答案。這取決于你構建的應用類型、客戶對進行這類數據分析的接受度等因素。無論在這兩個問題上的答案如何,你必須關注兩點: (1)如何隨著時間的推移構建數據護城河,(2)如何開始嘗試利用這些數據。 任何一家公司如果能解決這些問題,都將在未來幾年收獲豐厚回報。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the authors
Vikram Sreekanti
Co-founder & CEO of RunLLM
Joseph E. Gonzalez
Professor at UC Berkeley and Co-Founder at Run LLM
END
本期互動內容 ??
?假設 AI 巨頭明天推出你們領域的專業模型 —— 你們積累的哪類數據最可能成為對抗巨頭的護城河?
本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。
原文鏈接:
??https://frontierai.substack.com/p/ai-is-still-all-about-data??
