中國AIGC數據標注全景報告:百億市場規模,百萬就業缺口
數據標注,正迎來關鍵洗牌時刻。
大模型時代到來,以數據為中心的AI開發模式加速走向臺前,數據的價值從未向今天這樣被充分挖掘——
大模型從訓練到部署應用迭代,AIGC眾多垂直場景落地,通用智能、具身智能等前沿領域探索,都與高質量、專業化的場景數據密不可分。
作為底層基礎服務,數據標注也從未像今天這樣受到關注,但與此同時機遇與挑戰隨之而來。
數據標注要求從客觀到主觀,標準如何統一?標注人才要求又有什么樣的新變化?
大模型公司/AI企業涌入賽道,專業數據服務廠商如何自處?
合成數據作為新興賽道,又有怎樣的增長空間?
帶著這些問題,量子位智庫《中國AIGC數據標注產業全景報告》由此而來,并嘗試解答。
報告中,量子位智庫將從我國數據標注行業現狀、四大關鍵變化、三大影響要素、行業發展及市場規模等多角度、多方向地全面立體描繪中國數據標注產業全景。
核心觀點如下:
- 數據標注服務貫穿大模型全生命周期,上下游合作關系更為緊密耦合;
- 大模型范式涌入數據標注,自動化標注效率進一步提升;
- 標注人才高學歷多領域成硬指標,缺口或達百萬;
- 產業鏈重構,專業數據服務商更多機會將在垂直領域,幫助企業私有化部署;
- 傳統依靠渠道人力等因素聚合飛輪效應已失效,數據標注朝著知識密集型轉移;
- 國內市場規模將達百億量級,合成數據增速最高。
大模型時代下的數據標注
數據標注,是將原始數據進行加工處理,比如分類、拉框、注釋、標記等操作,轉換成機器可識別信息的過程。
國內數據標注廠商,廣義也被叫做基礎數據服務商,通常需要完成數據集結構/流程設計、數據處理、數據質檢等工作,為下游客戶提供訓練數據集、定制化服務。這也是本次主要研究對象。
大模型時代到來,數據標注受到前所未有的關注。
上市公司股價狂飆,創業代表公司融資加速。
國內唯一一家AI數據上市公司海天瑞聲受到ChatGPT熱潮,今年2月以來股價曾一度狂飆。創業公司也同樣融資進展頻頻,包括像星塵數據、標貝科技、整數智能、柏川數據、曼孚科技、愷望數據等代表公司均獲得新融資。
大模型數據解決方案多處開花,以一站式、定制化服務為主
圍繞大模型開發全生命周期(包括預訓練、監督微調、RLHF、基準測試等),專業數據服務商、大模型企業、AI公司等各方都拿出相關數據解決方案。
大模型范式涌入數據標注,自動化標注?檻大幅降低
以「Segment Anything」為代表的圖像分割模型開源,可通過提示詞對圖像或視頻中任意對象進行分割,并可擴展到任何新任務和新領域,被稱為是CV領域的「GPT-3」時刻,大大降低了圖像領域的標注門檻。
智能駕駛新感知范式,BEV+Transformer是機遇也是挑戰
作為最具代表性應用場景,智能駕駛迎來新感知范式——
以BEV+Transformer為代表的四維感知替代掉2D+CNN為代表的二維感知方案,給數據服務廠商帶來更多機遇與挑戰,包括不限于標注場景難度大、數據量產能力要求高等。
四大關鍵變化
需求變化:與行業場景強相關,高質量數據需求長期且持續
大模型時代的到來,正加速推動人工智能開發從以模型為中心朝著以數據為中心的方向轉變。
△圖源:Data-centric AI: Perspectives and Challenges
大模型作為以數據為中心的產物,數據數量和質量很大程度決定著大模型能力的上限。尤其像訓練流程中的后兩個階段,直接決定了大模型性能好壞——
需要專業人士生成數據或對數據進行改寫或排序,最終形成符合人類標準(比如專業邏輯、核心價值觀等)高質量數據。
處理流程側變化:標準從客觀到主觀,高學歷多領域成人才硬指標
從數據流程上來看,傳統數據標注是以目標任務為導向,通過拉框、描點、轉寫等方式進行人工或自動化標注,評價標準主要以準確率和效率為指標。
而大模型數據標注,則是按照階段來劃分,通常對自然語言要求很高,需要更專業的人才參與,標注要求偏主觀,難以形成統一的標準。
數據標注從勞動密集朝著知識密集型轉變。
其中像百度在??趯榇竽P徒ㄔO的數據標注基地,本科比例100%,培訓專業人才已達1000人。未來五年,數據標注相關專業人才缺口將達百萬量級。
業務變化:合成數據新衍生賽道,潛在市場空間巨大
合成數據作為新衍生賽道,正受到廣泛關注。所謂合成數據,即是用AI生成數據而非真實產生,能夠替代真實數據來訓練、測試和驗證大模型。OpenAI CEO Sam Altman曾方言:
未來所有數據都將變成合成數據。
除了能降本增效外,它可以補充更多邊緣、長尾場景數據,能有效解決大模型時代下的“數據鴻溝”,并自然規避掉數據隱私安全、合規等方面問題。
像在數據增強、模型驗證、可解釋AI等領域,以及自動駕駛、機器人、生物醫藥等領域都有相關應用。
量子位智庫預計,合成數據將成為未來增速最快賽道,年增?率可達45%。
供應鏈變化:產業鏈重新洗牌,大模型公司/AI企業涌入
大模型公司/AI企業自建數據處理管線,并對外輸出大模型數據解決方案,產業鏈重新洗牌。
部分廠商還具備云服務能力,可與數據服務打包輸出,能有效建立起客戶之間的口碑和信任。
三大影響因素:以技術+場景聚合的飛輪效應
一看技術能力
作為AI底層服務,數據標注最本質的就是為下游客戶降本增效。而技術是降本增效的最優解決路徑,持續迭代技術能力的企業將有機會脫穎而出。
包括不限于以下幾點:數據閉環工具鏈的智能化水平、對大模型/AI算法的理解、數據工程化能力、基礎設施建設等。
二看場景資源
場景資源能力主要包括數據和人才兩個層面:高質量的場景數據以及場景人才(領域專家、深度用戶等)
這與行業持續多年的深耕不無關系——企業懂得行業know-how,能夠根據客戶需求,快速找到并利用與場景最為貼合的數據和人才資源。
三看飛輪效應
數據標注仍具有飛輪效應。以往靠銷售渠道、人力成本等驅動因素,服務商實現業務量增長,進而贏得市場獲得口碑,獲得新客戶也會越來越容易。
如今在技術和場景資源能力雙重驅動下,數據處理能力越強,大模型標注經驗越豐富,落地案例越來越多,數據處理的可擴展性和靈活性也越高。
這樣一來,新創業公司入局門檻將進一步提高,專業數據服務提供商更多機會將在垂直場景,幫助企業完成私有化部署。
國內基礎數據服務百億市場規模
數據標注行業傳統依靠渠道、人力等形成的低成本優勢將被重塑,數據需求方將更看重數據質量、場景多樣性和可擴展性?;谝陨显颍孔游恢菐鞂臄祿A設施、場景資源兩個方面來分析國內市場分布及現狀。
第一象限:有技術有場景的明星公司
該象限存在兩種情況:
第一種是模型層公司本身有大模型技術范式以及場景落地經驗積累,可快速輸出數據解決方案,與云服務打包輸出建立信任;
第二種則是主要以技術驅動的明星企業,大部分擁有數據閉環工具鏈,再結合幾年來行業經驗,在大模型浪潮下易受到企業用戶?睞。
第二象限:有強技術支撐的創業新勢力。
該象限主要聚焦在近兩年創立的創業公司,主要以自動駕駛場景作為切入點,再覆蓋 到AIGC及其他領域。他們飽受資本市場認可,以愷望數據為例,一年半時間就是完成了三輪融資。
第三象限:包括中小團隊、企業自建數據管線等。
第四象限:場景壁壘更為深厚的行業玩家
該象限著更為深厚的行業數據壁壘,可為下游用戶提供高質量數據集或擁有大模型數據標注團隊, 以海天瑞聲為例,不僅是LIama2的唯一中國伙伴,還發布超大規模中文多輪對話數據集DOTS-NLP-216,合作企業超810家,覆蓋全球近200個主要語種及方言,有近20年行業深耕。
量子位智庫認為,數據標注處于重新洗牌的時期,更高質量、專業化的數據標注成為剛需。
未來五年,國內AI基礎數據服務將達到百億規模,年復合增長率在27%左右。
以下為我國值得關注的行業代表機構TOP20: