火山引擎基于大模型 ChatBI 的演進與實踐
一、背景與趨勢
1. BI 平臺演進 - 全面進入智能化
在探討火山引擎 BI 工具的發展歷程時,可以清晰地劃分為幾個關鍵階段,這些階段亦與市面上主流 BI 工具的演進過程相吻合。
最初,傳統 BI 工具主要聚焦于報表平臺,由業務方提出需求,產研團隊作為數據的主要生產者,負責制造簡單的報表,以輔助經營儀表盤的制作。這一階段的生產過程相對原始,成本較高,主要服務于一線業務和決策層,提供聚合性數據的定向查看。
隨后,BI 工具進入全民數據分析時代,即第二階段。此階段,業務方和數據分析師對數據的生產準備、看板制作及數據分析產生了強烈訴求,自助分析的概念應運而生。這一階段標志著自助 BI 的普及,全民數據分析成為主流。
進入第三階段,當數據生產、加工及簡單的數據呈現不再是瓶頸時,基于 AI 能力、自動化及智能化的數據分析、提取及加工需求變得愈發重要。這一階段,歸因能力、基于數據的智能洞察與決策能力,以及分析助手等功能的訴求逐漸增強?;鹕揭娴?BI 平臺正是在這三個階段的逐步演進中,不斷成熟與發展。
2. 火山引擎 DataWind 企業級 BI 平臺建設歷程
DataWind 是火山引擎推出的 BI 平臺。在建設初始階段,DataWind 主要聚焦于 MVP 產品路徑的構建,致力于滿足研發者、分析師、一線業務及日常協同辦公等多方面的需求。具體而言,它涵蓋了搜索查詢、可視化查詢、儀表盤搭建、數據協同及數據集構建等核心功能,為平臺的后續發展奠定了堅實的基礎。
隨著基礎能力的逐步完善,DataWind 平臺邁入了第二個發展階段。在這一階段,平臺開始關注數據隔離、智能歸因及移動端能力等更高層次的需求。項目中心的建立、智能歸因系統的引入以及移動端多端能力的提升,不僅滿足了經營者及一線業務人員在移動端查看數據的迫切需求,也進一步增強了平臺的決策支持能力。
如今,DataWind 正經歷著創新與突破的關鍵時期。平臺不僅補全了可視化建模的能力,還在近年來逐步拓展了洞察決策、歸因分析以及結合大模型構筑的 copilot 等前沿能力。這些創新不僅提升了平臺的智能化水平,也為其在未來的發展中注入了新的活力。
3. 產品能力矩陣
DataWind 展現了一個全面且強大的能力矩陣。其核心價值體現在“零門檻、全自助、強協調、強協作”上,旨在使業務用戶能夠輕松學習并高效運用該工具。
DataWind 巧妙融合了當前先進的大模型技術,從而實現了 BI 與 AI 的深度融合,為用戶提供了洞察決策與交互式分析等高級功能。特別是智能歸因預警及數據協同辦公等功能。
4. 服務于抖音集團內部業務的數據產品
DataWind 在抖音集團內部是極為關鍵的數據產品工具之一,其用戶規模龐大覆蓋了集團內 500 余條業務,為超過 80% 的日常業務用戶提供服務。此外,DataWind 在性能上表現出色,能夠實現秒級的數據查詢。
二、火山引擎 AI+BI 的探索與落地
文章第二部分將重點探討火山引擎 DataWind 如何與大模型或 AI 能力相結合,以推動其在多個場景中的探索與落地。從業務閉環分析和決策的視角出發,詳細闡述 DataWind 在大模型結合上的探索路徑。
1. DataWind AI+BI 探索路徑
整個數據生產與分析鏈路被清晰地劃分為幾個階段。
首先,數據生產階段,主要由產品研發團隊負責數據準備。隨后,數據進入分析階段,由分析師或運營團隊進行數據加工、分析與洞察。對于一線業務團隊而言,他們可能不具備數據加工或分析能力,但可以通過臨時查詢獲得核心數據相關 KPI,進行定性或定向的分析。然而,這些查詢結果往往不足以指導業務決策,因此需要對加工或查詢后的數據進行深入洞察,以輔助業務發展與決策。
DataWind 緊密配合這一業務分析與數據使用鏈路,通過融入大模型技術,旨在提升整個分析閉環鏈路的效率并降低成本。在上述四個層次中,每一層都加入了大模型的加持,以實現這一目標。
2. 智能數據洞察的大模型能力矩陣
從產品架構的視角來看,DataWind 與大模型的結合展現出了全新的發展方向。在數據準備階段,該工具充分利用大模型的能力,實現了指標維度的智能識別、描述備注的自動填充以及字段表達式的智能生成。此外,針對研發視角的數據準備工作,火山引擎 BI 工具還提供了 SQL 自動生成、SQL 自動解釋、SQL 優化,以及 SQL 一鍵修復等功能。
在分析師、運營及產品研發的視角,DataWind 在分析功能上投入了大量精力。在可視化查詢方面,該工具配備了字段式表達式的生成、二次分析的能力,以及自然語言對話查詢、臨時查詢等便捷功能。用戶還可以輕松切換數據集、圖表類型,并享受一鍵美化圖表以及智能推薦相應工作的服務。
面向一線業務、運營和分析師,以及管理層決策者,提供了儀表盤探索分析的功能,包括智能生成儀表盤、數據自動解讀等。針對移動辦公需求,ChatBI 與辦公軟件也深度集成,如配合飛書提供了基于 IM 的對話查詢、多輪追問等分析能力。此外,DataWind 還結合了多端能力,除了移動端外,還支持數據大屏、數字孿生等多種工具。在數據大屏中,同樣配備了智能分析和智能語音交互的能力,為用戶提供了更加全面的數據支持。
DataWind 與大模型的結合場景已經探索了 20+copilot 能力,全面覆蓋了 BI 工具的生產鏈路,顯著提升了用戶的生產效率。
3. 數據分析與消費
- 在分析與消費領域,該工具面向一線業務、分析師、管理層以及企業用戶,提供了豐富的功能。
- 對于一線業務人員,提供了 AI 洞察、數據解讀以及圖表數據探索等功能,幫助他們更深入地理解數據。
- 對于分析師,智能儀表盤的自動生成、圖表的智能美化、二次分析及表達式生成等能力,可以大大提升他們的工作效率。
- 管理層則可以通過 ChatBI 移動端、智能體以及移動駕駛艙,隨時隨地掌握企業運營狀況。
- 針對企業形象宣傳的需求,DataWind 還提供了智能語音大屏,以直觀、生動的方式展示企業實力與形象。
DataWind 提供的儀表盤,通過集成大模型的能力,實現了數據的智能解讀。在儀表盤上,各個圖標組件均可通過點擊數據解讀功能,迅速獲得對當前數據的深度分析,包括折線圖的高點、低點、波峰、波谷及移動值等,為一線業務團隊提供了便捷的數據監控與分析手段。
需要明確的是,此處的數據解讀并非傳統意義上的歸因分析,而是對數據的直觀呈現與初步理解。若系統提供的數據解讀無法滿足特定業務需求,DataWind 還配備了自定義數據解讀功能,允許業務團隊根據自身需求配置解讀思路,實現千人千面的數據解讀效果。
此外,DataWind 儀表盤還融入了 AI 問答能力,針對圖表背后的完整數據集,允許用戶通過自然語言的方式詢問更細顆粒度的數據,從而降低了數據提取的難度。這種自然語言的交互方式,更符合一線業務人員的常規使用習慣,提高了數據使用的便捷性。
為確保數據提取的準確性和可信度,DataWind 還提供了多種輔助手段,如經典BI 的膠囊位驗證方式,以及查看原始 SQL 和數據集的功能。
DataWind 通過集成大模型的能力,為報表的解讀與探索提供了全新的解決方案,不僅提高了數據使用的便捷性,還確保了數據的準確性和可信度。
針對一線業務人員的另一重要場景為 AI 查詢,這一獨立模塊專為滿足一線業務人員對數據的深度探索與自定義分析需求而設計。與儀表盤基于圖表本身的詢問不同,AI 查詢模塊允許資深業務人員或決策者對公司內部數據進行臨時性的深入探索。
用戶只需進入 AI 查詢模塊,選擇相應的數據集,即可通過自然語言進行多輪對話,輕松獲取所需的數據結果。這種完全基于自然語言的交互方式,極大地降低了數據查詢的門檻,使得業務人員能夠更便捷地與系統進行交互。
此外,DataWind 還注重細節工作,如提供數據集的常用字段等輔助性信息,以幫助用戶更好地理解和使用數據。這些措施旨在消除用戶與陌生系統或數據集之間的交互障礙,提升整體的數據使用體驗。
在介紹了針對一線業務人員所提供的兩大能力后,接下來介紹為分析師群體所配備的能力。
對于分析師而言,構建儀表盤是其日常工作的核心部分,而 DataWind 平臺則為此提供了智能生成儀表盤的功能。用戶僅需通過自然語言描述所需儀表盤的類型、分析思路及布局要求,系統便能據此智能生成一份初始化的儀表盤模板,極大地提升了工作效率。
值得注意的是,盡管大模型在智能生成過程中展現出強大的能力,但仍難以確保百分之百的準確性。因此,DataWind 平臺還提供了二次調教的功能,允許用戶對生成的儀表盤進行細致的調整與優化,以確保數據的準確性和分析的精準性。這一功能不僅彰顯了 DataWind 平臺對用戶需求的深刻理解,也體現了其在技術層面的卓越實力。
分析師在進行 BI 數據分析時,常受限于數據集本身的顆粒度和明細程度。若數據集過于明細,分析師可能僅能通過 BI 系統獲取當前分析所需的部分數據,而難以在后鏈路中完成自定義字段的添加、數據的聚合與加工等長尾工作。這往往導致分析師需要向產研或中臺團隊提出需求,請求對數據進行二次加工,導致工作效率受到影響,也無法及時響應業務人員的需求。
為解決這一問題,DataWind 推出了二次分析大模型能力。分析師在完成可視化查詢后,可基于當前結果,通過自然語言與大模型進行對話,由大模型完成后續的數據加工工作。例如,若原始數據集中僅有銷售額字段,分析師可要求大模型生成月銷售額占比的衍生字段。大模型將基于當前結果直接生成該衍生字段,從而極大地簡化了分析師的工作流程。
這一功能大大提高了分析師的工作效率,解決了其在長尾需求分析中所面臨的痛點。分析師無需再將數據下載至 Excel 中進行加工,而是可以直接在系統中完成所有分析工作。
分析師在運用 BI 工具時,常需構建計算字段以滿足特定分析需求。然而,隨著 BI 工具功能的日益豐富和函數表達式的增多,構建自定義字段的學習成本也隨之增加。為解決這一問題,DataWind 引入了結合大模型的能力。
通過自然語言與大模型進行對話,分析師可以便捷地獲取構建所需字段的函數表達式建議。大模型能夠根據分析師的需求,智能推薦合適的函數,從而極大地降低了學習成本,提升了生產效率。這一功能雖然看似簡單,但在實際應用場景中卻具有高頻次的使用價值。
在探討完分析師角色后,接下來是管理層的應用場景。
首先,DataWind 與飛書實現了深度集成,為移動端配備了 ChatBI 功能。在飛書平臺內,用戶可以激活 DataWind ChatBI 機器人,通過自然語言問詢的方式獲取所需數據結果。該功能支持多輪問答及常規圖形切換,用戶點擊圖表或獲取結果后,可進一步查看詳情。此外,DataWind 還提供了查看原始 SQL、配置及輔助信息的能力,以增強數據的可信度。這些功能設計充分滿足了管理層及有移動辦公需求的一線業務人員在出差或無法使用電腦時,快速獲取所需數據的場景需求。
未來,大模型的能力不再是簡單的“指標和維度”,而是“問題與答案”。DataWind 團隊近期也在進行相關探索,并孵化了一款“智能體”產品,與 ChatBI 有著本質區別。
在 ChatBI 場景中,用戶需基于單數據集進行自然語言問答,而在智能體中,用戶則直接與智能體對話,無需關注數據集的選擇。用戶提出問題后,智能體會從業務鏈路中所有數據庫表中獲取相關數據,給出答案。此外,智能體還提供推薦問題、答案收藏及推送等功能,使用戶能更便捷地獲取所需信息。
智能體的產品形態脫離了數據集本身的概念,構建了完整的業務域。作為核心或垂類業務方,用戶無需單獨指定某個數據庫表,而是直接基于業務問題進行問答。這一發展初步實現了向“問題與答案”方向迭代和演進的目標,為業務方和決策者提供了更為便捷、高效的數據查詢方式。
針對政企客戶及企業宣發與形象推廣需求,BI 系統能提供大屏與數字孿生等先進功能。在此場景下,DataWind 探索并融入了大模型能力,使得用戶能夠與大屏進行自然語言對話,即時輸出相關數據。此外,用戶還能通過交互獲取更多信息內容,增強了場景的互動性和智能化水平。
4. 數據生產與加工
在探討完數據消費之后,接下來看一下數據生產和加工領域,大模型功能的演進與孵化。在數據生產和加工過程中主要聚焦于三個關鍵角色:數據研發、分析師,以及業務合作伙伴。
對于數據研發人員而言,常規的數據生產工作通常依賴于 SQL 分析和 SQL 平臺的能力。為了進一步提升效率,DataWind 結合了大模型技術,孵化了一系列自動化工具,包括一鍵 SQL 優化、自動生成 SQL、一鍵為 SQL 生成注釋,以及針對 SQL 錯誤的一鍵診斷和一鍵修復功能。由于 SQL 本身具備工具化和語法規范的特點,與大模型技術的結合顯得尤為契合,從而實現了高準確率的自動化處理。
在完成數據生產后,為了滿足業務需求,分析師還需進行數據的二次分析和深度聚合。為此,DataWind 也配備了相應的二次分析能力,確保數據研發人員或分析師在編寫 SQL 后,能夠對數據進行進一步的校驗和深度挖掘,以保障數據的準確性和可用性,從而滿足業務方的需求。
在數據生產和加工領域,結合大模型的能力,DataWind 推出了數據快速加工助手,即數據準備助手。該助手能夠自動識別加工后的數據集中的維度和指標,并實現一鍵描述與備注填充,這一功能雖看似細微,實則作用顯著。鑒于導入的數據底表、數據庫表及數據集常含英文字段,為便于業務方更好地理解庫表含義,大模型在識別維度、指標并進行智能填充時,會將其轉譯為中文。
不僅如此,大模型還能基于語義理解,為包含復雜表達式的字段(如 CASE WHEN、IF ELSE 等)構建業務描述,從而助力用戶準確理解字段所表達的業務含義。這些業務描述在前端數據消費環節,還能作為大模型語義的補充,進一步優化字段召回,提升準確率,形成了一個閉環優化與反饋機制。
在數據探索與準備的范疇中,知識庫管理占據著舉足輕重的地位。尤其在 BI 的商業化應用中,知識庫與行業術語的黑話成為大模型與 BI 結合的一大挑戰。眾多客戶反饋,他們期望能依據行業特有的描述與問答模式,更有效地獲取相關數據。然而,目前的技術尚不支持直接導入文檔以供大模型自主學習并高效運用行業知識。
我們發現,在提供完全泛化的文案內容時,大模型的召回準確率反而有所下降。實踐表明,大模型在有限且規則明確的知識體系內,尤其是經過配置化的知識語料訓練后,能更好地響應客戶的查詢。因此,DataWind 引入了知識管理能力,針對數據集中的核心業務字段構建同義詞,并補充業務場景描述,以增強大模型對行業術語及特殊詞匯的識別能力。
5. 數據決策與洞察
在 BI 生態中,為管理層量身定制的移動駕駛艙功能助手是一大亮點。通過移動駕駛艙,管理層能夠享有更加自由靈活的數據訪問體驗。其中所呈現的數據均為經過前置配置的核心數據,旨在滿足管理層對數據嚴肅性與嚴謹性的要求。相較于泛化的分析工作,移動駕駛艙更側重于核心數據的提取與移動監測,為管理層提供精準、高效的數據支持。
結合大模型技術,移動駕駛艙能夠調取豐富的信息與知識,完美契合管理層日常辦公的需求。它不僅展示了核心指標數據,還集成了會議紀要、結論以及市場信息和輿情,為管理層提供了一個全面、深度的視角。因此,這款管理工具是面向管理層精心孵化,并與大模型深度結合的產物,旨在提升管理層的決策效率與質量。
決策和洞察功能的第二塊是數據洞察與歸因。提供了三種歸因方式:
- 維度歸因:對指標的變化,在各維度上進行拆解,并給出定量的貢獻解釋。這里引入了定基法、加權占比法等算法。
- 指標歸因:將復合指標或計算指標拆解成因子指標來看其貢獻度。
- 異動分析:結合時序預測算法,對指標進行自動探查。
結合這三種歸因能力,還提供了更加全面的指標分析樹的能力。
下圖展示了歸因報告的樣例。
DataWind 分析助手的整體架構如下圖所示。收到一個自然語言的用戶提問后,首先會經過初步的內容審查和攔截,下一步是生成 prompt,提交給大模型,大模型返回 SQL 和回答,再經過第二輪審計,最終服務于不同分析場景。
大模型為 BI 帶來了兩大優勢,一是數據開發提效,二是數據消費擴大。
火山引擎 DataWind 分析助手的顯著優勢在于:
- 首先,得益于大量復雜場景與大規模用戶的實踐打磨,作為內部最大的數據產品工具,其用戶體量龐大,為分析助手在客戶側的使用提供了豐富的驗證機會,促使其逐步迭代并趨向成熟。
- 其次,火山引擎擁有豆包大模型的知識儲備,模型迭代與優化進程可控,且得到了全力投入與支持。
- 此外,火山引擎在算法工程、大模型應用及數據應用方面亦具備顯著實力,通過工程化層面的深入工作,確保了數據的高準確性。
- 最后,火山引擎持續進行超飽和的高質量投入,其數據運營團隊中超過一半的產研力量在 2023 年至 2024 年間全力投入到分析助手的孵化與迭代中,未來還將加大投入。
因此,火山引擎 DataWind 有信心將大模型與 BI 的結合推向行業領先地位。
三、DataWind 外部實踐場景
1. 某全球化消費電子品牌
某全球化消費電子品牌面臨舊 BI 平臺 AI 能力不足、難以結合新技術、無法實現高速演進、業務自助分析難以實現以及缺乏高效整合型 BI 平臺等問題。DataWind 憑借其優勢能力,成功滿足了該品牌的需求。首先,DataWind 與飛書實現了強聯動協同,提升了工作效率。其次,DataWind 提供了低門檻的可視化能力和敏捷的即席分析,滿足了業務的正常使用需求。此外,DataWind 當時正孵化的 ChatBI 能力也引起客戶的興趣,符合其使用理念。因此,該品牌選擇了 DataWind 作為 BI 承載工具。
業務場景中,財務部門對數據的分析需求尤為突出,因其對數據要求嚴謹且分析視角多維。然而,財務人員雖專業于數據,卻在描述需求時顯得瑣碎,難以精準表達,同時其底表明細復雜,構建模型與數據集頗具挑戰。在此情境下,ChatBI 能力顯現出顯著優勢,其分析視角多樣、數據建模靈活、適應分析思路多變的特點,恰好滿足了財務部門的需求。此外,ChatBI 還能很好地融入財務數據分發及與飛書等工具的協同辦公場景中。
同樣,行政與 HR 部門也面臨類似挑戰,數據瑣碎、分析思路多樣,導致中臺部門難以準確理解和實現其需求。因此,Chat BI 與分析助手同樣成為了這些部門的理想選擇。
針對 HR 人事考勤部門的痛點,該客戶發現考勤點眾多且場景分散,難以向數據分析部門準確傳達需求以生成完整報表。而通過引入分析助手,HR 團隊能夠基于原始考勤數據,高效地進行統計分析,精確掌握員工在不同場景下的平均出勤情況。這一解決方案完美契合了分析助手的能力,有效解決了客戶的實際問題。
2. 某汽車企業
下面介紹的是一個汽車行業客戶,聚焦在移動駕駛艙場景。近年來,汽車行業競爭激烈,每家汽車廠商除了關注自身核心數據以外,還會關注公共輿情、市場動態以及競爭對手的市場數據。移動駕駛艙首先可以滿足管理層數據盯盤和移動辦公的需求,還可以提供公域信息中的相關數據,同時還提供定期總結,完美解決了客戶需求,為其降本增效、緊跟市場動態提供了助力。
3. 某電商平臺
第三個 B 端案例是某電商平臺。在 DataWind 大模型分析助手的能力加持下,客戶工作效率得到了大幅提升。
4. 某內容平臺
最后是一個內容平臺客戶案例。DataWind ChatBI 移動辦公的能力,很好地滿足了創作者運營團隊隨時隨地獲取信息的需求,幫助他們及時識別運營機會與方向,為精細化運營奠定了基礎。
四、總結與展望
在探討 ChatBI 或 AI+BI 的未來發展方向與趨勢時,有幾個關鍵點值得關注。
- 首先,垂類場景的深度挖掘將成為重要趨勢。隨著 BI 廠商與大模型結合能力的不斷探索,市場逐漸認識到,在部分場景下,大模型加 BI 的準確率難以完全滿足高預期。因此,針對復雜泛化問題的解決方案將趨向于收斂于具體的垂類場景,高效滿足用戶實際痛點將成為產品競爭力的關鍵。另外,跨表構建業務主題分析域將成為重要課題。初期 AI+BI 能力多基于單表問詢進行孵化,但這并不符合業務實際應用場景。未來,跨表構建垂類主題域,實現問題與答案的緊密結合,或將成為大模型的發展方向。
- 第二,指標的治理與應用將是提升大模型應用效率的重要手段。在實際應用中,原始數據往往較為混亂,大模型難以直接進行數據治理和加工。因此,用戶和供應商需共同解決數據復雜度問題,以更好地應用大模型服務于業務。
- 第三,深化 AI 能力將成為核心競爭力。數據分析領域 BI 的普及帶動了 AI 能力的普及,未來 AI 能力需在生產、取數、決策洞察等全方位閉環解決業務全場景問題,才能構筑 AI+BI 產品的競爭力。
- 最后,多邊系統協同驅動企業數據飛輪也是必然的發展趨勢。AI+BI 需具備更好的開放集成能力,與企業辦公軟件或場景深度結合與集成,而不僅僅局限于獨立的數據工具。