阿里巴巴數(shù)據(jù)消費場景AI Agent實踐
一、阿里瓴羊公司介紹
首先簡單介紹阿里瓴羊公司。
1. 瓴羊介紹
瓴羊是阿里巴巴全資子公司,主營數(shù)據(jù)要素服務。瓴羊提供一整套數(shù)字化產(chǎn)品和服務,涵蓋數(shù)據(jù)加工、數(shù)據(jù)消費以及數(shù)據(jù)流通等三大環(huán)節(jié)。幫助企業(yè)有效利用數(shù)據(jù)資源,促進數(shù)據(jù)與企業(yè)實際經(jīng)營的深度融合,賦能企業(yè)增長和數(shù)字化轉型。
瓴羊已服務了上百家知名企業(yè)和眾多中小企業(yè)的數(shù)字化建設,如一汽紅旗、星巴克、自然堂、極氪、喬丹、中國移動和中海油等,覆蓋零售、汽車與制造、互聯(lián)網(wǎng)、金融等多個行業(yè)。
隨著企業(yè)的發(fā)展,數(shù)據(jù)不斷累積,導致管理難度增加。更加嚴重的是,隨著企業(yè)業(yè)務的渠道在變多,平臺在變多,相應的 IT 系統(tǒng)和企服產(chǎn)品也在變多。企業(yè)組織內過多的產(chǎn)品和系統(tǒng),以及這些產(chǎn)品和系統(tǒng)所產(chǎn)生的各自為戰(zhàn)、零散不統(tǒng)一的數(shù)據(jù)。
瓴羊公司的前身是阿里巴巴內部最懂數(shù)據(jù)的團隊——數(shù)據(jù)中臺,也曾經(jīng)被叫做 DT 團隊(Data Technology)?;凇窸ne Data」方法論,不斷演進出 One Product、One Platform,直至 2021 年成立瓴羊公司。從服務于集團內部,發(fā)展到服務于成百上千的外部客戶,幫助各行業(yè)企業(yè)解決數(shù)據(jù)相關問題。
2. 瓴羊公司在數(shù)據(jù)領域構建的產(chǎn)品
瓴羊在數(shù)據(jù)領域打造了兩大產(chǎn)品:
第一個是 Dataphin 智能數(shù)據(jù)建設與治理,旨在解決企業(yè)數(shù)據(jù)建設、數(shù)據(jù)采集、數(shù)據(jù)資產(chǎn)管理等一系列數(shù)據(jù)治理問題。針對各行業(yè)大數(shù)據(jù)建設、治理及應用訴求,結合數(shù)據(jù)中臺方法論,一站式提供全域數(shù)據(jù)集成、可視建模及規(guī)范定義、數(shù)據(jù)資產(chǎn)治理等能力,助力企業(yè)打造標準統(tǒng)一、準確可信、便捷可消費的數(shù)據(jù)體系。
第二個是 Quick BI 智能商業(yè)分析,主要解決數(shù)據(jù)生產(chǎn)出來后如何服務于企業(yè)決策場景和各種分析應用場景。Quick BI 是首個且唯一入選 Gartner 商業(yè)智能和分析平臺魔力象限報告(《Magic Quadrant for Analytics and Business Intelligence Platforms》)的中國企業(yè)產(chǎn)品,截至今年已經(jīng)連續(xù) 5 年進入 Gartner 魔力象限,特別是最近兩年都進入了挑戰(zhàn)者象限。
這兩大產(chǎn)品是我們服務于客戶的核心載體。接下來將圍繞這兩個產(chǎn)品在 AI 方向上的實踐展開介紹。
二、AI 驅動下的數(shù)據(jù)消費
1. 數(shù)據(jù)消費的三個主要方面
瓴羊服務的客戶非常多,有制造業(yè)、零售業(yè)等各種各樣的客戶,這些客戶的內部流程和業(yè)務場景千差萬別。在 DA 數(shù)智大會現(xiàn)場,葉筆長舉了一個具象化的例子:如果企業(yè)是一個人,那么算法、算力、數(shù)據(jù)就對應智力、體力和血液,數(shù)據(jù)會流經(jīng)企業(yè)中的各個環(huán)節(jié),因此其發(fā)揮作用的場景非常多。
葉筆長指出,在面對復雜多變的業(yè)務場景時,數(shù)據(jù)消費的核心問題主要集中在以下三個方面:
(1)問數(shù):企業(yè)在決策分析的時候,能不能問到數(shù)據(jù)?
(2)找數(shù):業(yè)務分析師和產(chǎn)品工程師能不能在海量的數(shù)據(jù)資產(chǎn)中快速找到真正想要的數(shù)據(jù)表?
(3)看數(shù):數(shù)據(jù)的可視化是企業(yè)中最基礎的需求,也是傳統(tǒng) BI 一直在解決的問題。
葉筆長認為,隨著 AI 技術的不斷進步和業(yè)務場景的持續(xù)演變,要充分發(fā)揮 AI 的獨特價值,關鍵在于以下兩點:
(1)數(shù)據(jù)資產(chǎn)建設:企業(yè)內的數(shù)據(jù)相關部門或團隊需要構建清晰且易于使用的數(shù)據(jù)資產(chǎn)。在上一輪的數(shù)據(jù)革命中,阿里巴巴主要解決的就是通過打造數(shù)據(jù)中臺統(tǒng)一數(shù)據(jù),并保證數(shù)據(jù)高質量的問題。
(2)角色賦能與數(shù)據(jù)利用:一旦數(shù)據(jù)資產(chǎn)建立起來,接下來的重點是如何讓企業(yè)中的各個角色,尤其是那些與數(shù)據(jù)緊密相關的角色,發(fā)揮出其最大的價值。每個角色在服務用戶時所需的數(shù)據(jù)及其使用方式各不相同。瓴羊的策略是為這些角色提供一個名為 Data Agent 的數(shù)據(jù)平臺,在這個平臺上,他們可以根據(jù)自身的需求和場景快速創(chuàng)建定制化的數(shù)據(jù)代理(Agent)。這不僅有助于將特定角色的知識和經(jīng)驗沉淀下來,還為未來構建大規(guī)模的企業(yè)內部AI代理市場奠定了基礎。
簡而言之一句話:資產(chǎn)建設要做好,數(shù)字分身共打造。
2. 企業(yè)進行數(shù)據(jù)分析的典型框架
現(xiàn)場,葉筆長展示了一個企業(yè)內數(shù)據(jù)分析服務的典型框架:在目標方向清晰的情況下,經(jīng)過自上而下的拆解,能夠拆解出一套企業(yè)內的分析體系、報表體系。這個體系能夠讓企業(yè)內各個角色聯(lián)動起來,形成一個目標統(tǒng)一的體系。
3.數(shù)據(jù)分析的典型問題與挑戰(zhàn)
然而,上述解決方案還存在一個重大的問題。在這套確定性的看數(shù)和問數(shù)模式下,缺失了很多靈活性,比如臨時性、探查性和分析性的問題。AI 的出現(xiàn)給了我們一種新的契機去解決這類問題。
在原來的確定性體系下,業(yè)務人員或數(shù)據(jù)分析人員今天要臨時取這個數(shù)據(jù),明天要分析那個數(shù)據(jù),時間都花費在取數(shù)上。如果提交給業(yè)務產(chǎn)品開發(fā),就需要排版本,需求可能一直排在后面,要不斷地等待。
傳統(tǒng) BI 解決這個問題的方式是構建一些自定義的卡片,來支持靈活報表和靈活分析。但是在新的 AI 技術條件下,有一種新的解決方案,就是用自然語言去表達業(yè)務訴求,解放企業(yè)的數(shù)據(jù)人員,從而發(fā)揮數(shù)據(jù)人員向上的邏輯和業(yè)務人員向下的邏輯,讓雙方需求更好地 mapping 起來。
三、智能分析
1. 瓴羊智能商業(yè)分析產(chǎn)品 Quick BI
瓴羊智能商業(yè)分析產(chǎn)品 Quick BI 正是為了解決企業(yè)中看數(shù)的問題,特別是針對確定性問題之外的那些靈活看數(shù)需求。
葉筆長在現(xiàn)場演示了一段真實場景操作視頻,在 Quick BI 的基礎功能之上,融合了先進的大模型技術,對 AI 助手智能小 Q 進行了升級,旨在有效解決企業(yè)在日常數(shù)據(jù)查看與查詢中遇到的難題。
智能小 Q 可以幫助用戶通過智能搭建快速生成整張報表,或者指定報表快速呈現(xiàn)數(shù)據(jù)結果。在搭建過程中,無需尋找隱藏在頁面深處的功能點和配置項,只需簡單輸入即可完成復雜配置。無需設計師幫助,也能打造專業(yè)美觀的視覺效果。
通過智能小 Q,用戶可以隨時隨地以對話方式問數(shù)。只需要上傳企業(yè)知識,智能小 Q 就能學習到業(yè)務邏輯。通過對話輸入,數(shù)據(jù)即可一覽無余。如果對數(shù)據(jù)準確性有顧慮,還可以查看 AI 取數(shù)過程。支持多輪對話、追問下鉆即可獲取詳細指標,拆解波動原因,歸納關鍵貢獻因素。分析數(shù)據(jù)規(guī)律,預測未來走勢等等。
隨著大模型的引入,Quick BI 更加智能,業(yè)務人員可以更簡便地查詢分析數(shù)據(jù),降低了操作門檻,也減少了分析師簡單重復的勞動,使其可以專注于更有價值的工作。企業(yè)可以借助越來越智能化的 Quick BI 去應對不斷膨脹的業(yè)務數(shù)據(jù)和復雜分析。目前 Quick BI 已經(jīng)服務于各類行業(yè),助力銷售、金融、制造等行業(yè)客戶實現(xiàn)數(shù)據(jù)智能分析,不斷提升企業(yè)數(shù)字化水平,推動了數(shù)據(jù)消費新范式。
2. 大模型的兩個重要認知
在 BI 應用這個方向上,應該如何選擇模型?立足 Quick BI 智能小 Q 的研發(fā)歷程,總結出以下兩點重要認知:
首先,模型越大、參數(shù)越多,則效果越好。但是這同時意味著對資源的要求越高,即對算力卡、內存,以至于整個機器的成本更高。葉筆長建議需要在這兩者之間找到一個平衡點。
另外,數(shù)據(jù)是解鎖智能的關鍵鑰匙,數(shù)據(jù)質量決定了模型的效果。更多的預訓練數(shù)據(jù)和更高質量的標注數(shù)據(jù)可以顯著降低模型大小,提升模型性能。
葉筆長介紹到,由于瓴羊的客戶覆蓋了廣泛的行業(yè)領域,因此在模型部署上采取了兩種方式:
一種是公有云模式,用戶只需訂閱服務即可使用;另一種則是針對那些出于數(shù)據(jù)安全考慮而偏好私有化部署的客戶。為了同時滿足這兩類客戶的需求,不僅要在客戶的軟件、硬件設施以及網(wǎng)絡環(huán)境等多方面作出適應性調整,還要確保模型能夠達到基本的性能標準。為此,團隊對從 7B 到 72B 不同規(guī)模的模型進行了全面測試。
此外,為了避免數(shù)據(jù)分析過程中可能出現(xiàn)的信息誤導(所謂“幻覺”),持續(xù)地對模型進行微調變得尤為重要。特別是在數(shù)據(jù)分析的應用場景下,準確地識別排名、趨勢及分布等關鍵指標,對于提供可靠的數(shù)據(jù)洞察來說至關重要。
3. 產(chǎn)品的技術架構
下面分享模型選擇后如何構建產(chǎn)品技術架構。
在智能問數(shù)場景,如果用戶輸入的是自然語言,那么從自然語言到具體的指令需要做一些中間轉換。不同的廠商對此有不同的處理方式,而 Quick BI 智能小 Q 則支持多種轉換路徑,包括 NL2API、NL2DSL 以及 NL2SQL。
由于瓴羊產(chǎn)品內置的 AI Agent 允許用戶自定義并快速編排功能,使得其應用場景非常廣泛且復雜。在具體應用中:
(1)對于那些明確且固定的場景,采用 NL2API 的方式最為高效和準確,因為它能直接從用戶的自然語言映射到最終的操作指令。
(2)瓴羊產(chǎn)品的發(fā)展歷程并非從零開始,它需要兼容內部已有的多種歷史產(chǎn)品和技術體系,同時也要適應外部客戶多樣性的需求,因此開發(fā)了 NL2DSL 技術。通過創(chuàng)建一套獨特的 DSL(領域特定語言),實現(xiàn)了更靈活高效的轉換機制。
(3)鑒于每種數(shù)據(jù)庫都有其獨特的 SQL 語法方言,單獨適配每一種數(shù)據(jù)庫的成本極高。為此,Quick BI 團隊特別訓練了一個大型模型解決 DSL2SQL,極大地降低了適配成本。
此外,Quick BI 還對可視化展示與復雜計算能力進行了大量針對性優(yōu)化,構建了一套強大的 BI 基礎引擎。這套系統(tǒng)不僅能夠很好地處理復雜的 SQL 查詢,還能通過高級的應用渲染組件顯著增強數(shù)據(jù)可視化效果。
基于通義千問這一強大的基礎模型,Quick BI 成功構建了專為數(shù)據(jù)分析領域優(yōu)化的大規(guī)模模型。在此過程中,特別關注了數(shù)據(jù)質量、多任務協(xié)同以及模型泛化這三個關鍵要素。
(1)高質量的數(shù)據(jù):首先,高質量的數(shù)據(jù)意味著多樣性。如果僅使用單一類型的數(shù)據(jù)進行訓練,那么模型的學習能力將受到限制,只能針對某一類問題提供解決方案。為此,Quick BI 團隊向大模型提供了豐富多樣化的樣本以支持微調與預訓練過程,確保其能夠處理更廣泛的應用場景。此外,保持數(shù)據(jù)的一致性同樣重要,這有助于避免因輸入信息不一致而導致的預測結果不穩(wěn)定。
(2)多任務間的協(xié)調:在模型訓練階段,合理配置不同類型的任務比例對于提升最終模型性能至關重要。通過精心設計不同任務之間的相互作用關系,可以使模型在面對實際問題時更加靈活地選擇合適的解決策略。
(3)逐步提高難度:為了增強模型的泛化能力,在訓練過程中采取循序漸進的方式增加挑戰(zhàn)性是非常有效的做法。這種方法可以幫助模型更好地適應未曾見過的新情況,從而提高其整體表現(xiàn)力和應用范圍。
通過上述措施,Quick BI 不僅提高了自身產(chǎn)品的技術水平,也為用戶帶來了更加高效準確的數(shù)據(jù)分析體驗。
瓴羊對各種復雜 SQL 進行了抽象。比如時間算子,做了單獨的訓練和加強,能夠準確理解用戶指令,將各類關于時間的表達精準映射到具體的數(shù)據(jù)庫 SQL 指令。
4. 案例分享
分享過程中,葉筆長現(xiàn)場還展示了一個企業(yè)使用實例。
Step1:需求背景
某企業(yè)在制定銷售激勵活動時,需要對其銷售明細數(shù)據(jù)進行深入的探查與分析,以確定具體的激勵政策方案。這包括對銷售金額的拆分、排名等一系列復雜的操作,旨在通過精細化的數(shù)據(jù)分析來優(yōu)化激勵機制,提高銷售團隊的積極性和效率。
Step2:分析挑戰(zhàn)
在這一過程中,由于涉及到大量的數(shù)據(jù)分析工作,如根據(jù)銷售金額進行拆分,并基于這些細分后的數(shù)據(jù)進一步做排名等,采用傳統(tǒng)方法往往意味著企業(yè)必須向 IT 部門提出具體的需求,由專業(yè)工程師開發(fā)相應的解決方案。這種方式不僅耗時較長,而且靈活性較差,難以迅速響應市場變化或內部策略調整的需求。
Step3:解決方案
(1)快速搭建能力:提供一個能夠快速構建分析模型的平臺,使非技術人員也能輕松地獲取所需的信息,例如各區(qū)域內的銷售業(yè)績前三名。
(2)智能呈現(xiàn)方式:系統(tǒng)能夠自動識別數(shù)據(jù)特征并選擇最合適的展示形式。對于包含地理位置信息的數(shù)據(jù)集,平臺會自動生成地圖視圖,直觀展現(xiàn)不同地區(qū)的銷售情況。
(3)靈活鉆取與自定義分析:除了直接回答用戶提出的特定問題(如浙江省的銷售表現(xiàn)),該解決方案還能自動擴展分析范圍至全國各省,并允許用戶自由選取感興趣的維度深入探索。此外,整個分析過程透明化,用戶可以查看從原始數(shù)據(jù)到最終結論之間的每一步驟,增強了結果的可信度與可解釋性。
四、智能找數(shù)
除了智能分析方向的產(chǎn)品,葉筆長還分享了 AI 在大數(shù)據(jù)領域另一應用方向——智能找數(shù)。
1. Dataphin 產(chǎn)品實踐介紹
企業(yè)中的數(shù)據(jù)量一般會有萬級甚至十萬、百萬級,這些大規(guī)模的數(shù)據(jù)每天都在不斷地迭代更新,要從中快速找到真正需要的表就構成了一個巨大的挑戰(zhàn)。
瓴羊的 Dataphin·DataAgent 有兩個核心能力:「快速找表」和「快速構建私有化DataAgent」能力。
DataAgent 是基于已準備好的數(shù)據(jù)資產(chǎn)(包括但不限于表格、指標、標簽和數(shù)據(jù) API 等),通過 Dataphin 快速編排而形成的智能化工具。它支持權限管理,能夠針對不同業(yè)務部門實施訪問控制。借助阿里巴巴成熟的數(shù)據(jù)資產(chǎn)管理經(jīng)驗,企業(yè)可以創(chuàng)建專門的工作空間來構建各部門的知識庫,并根據(jù)這些知識庫實現(xiàn)跨用戶群及部門間的權限隔離。與 Quick BI 提供的大模型解決方案不同,Dataphin 允許用戶靈活配置多種類型的大規(guī)模模型,以滿足不同企業(yè)和個人用戶的特定需求。
對于企業(yè)管理者來說,最大化利用企業(yè)數(shù)據(jù)資產(chǎn)的價值至關重要;而對于數(shù)據(jù)開發(fā)者而言,則需要提高處理眾多請求時的工作效率;數(shù)據(jù)分析師面對海量信息時,需尋找更高效的方法來檢索相關資料;此外,減少業(yè)務人員獲取數(shù)據(jù)過程中的等待時間和溝通成本也是亟待解決的問題。
Dataphin·DataAgent 為每位數(shù)據(jù)工作者提供了一個專屬的數(shù)據(jù)智能助手。該平臺集中管理來自多個源頭的數(shù)據(jù)資源,采用主題式的目錄結構進行組織,并賦予每項數(shù)據(jù)豐富的多維度屬性,從而實現(xiàn)了從原始數(shù)據(jù)到有價值資產(chǎn)的轉變。通過構建向量數(shù)據(jù)庫并結合流程設計,用戶可以輕松創(chuàng)建個性化的智能助手,開啟智能化對話服務。
例如,官方推出的智能助手小 D 可以根據(jù)具體的商業(yè)目標提出建議,并給出分析框架。此外,它還能深入剖析復雜問題,識別出重要的數(shù)據(jù)資產(chǎn)元素,幫助用戶精準定位所需信息。同時,這款工具還提供了查看數(shù)據(jù)間的關聯(lián)性以及生成報告的功能,使得從需求分析到報表制作整個流程變得更加簡單快捷。另外,當有特定的數(shù)據(jù)提取需求時,它也能輔助生成相應的查詢代碼,展示結果,并支持可視化數(shù)據(jù)分析,進而高效地完成高質量的數(shù)據(jù)分析報告,助力企業(yè)更好地挖掘其數(shù)據(jù)資產(chǎn)潛力。
用戶還可以自行開發(fā)定制化的智能應用,并一鍵部署上線,以便更加有效地服務于具體業(yè)務場景,激發(fā)新的增長點。
2. 通過應用 AI 技術,在數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)方面帶來的變化
過去,企業(yè)數(shù)據(jù)分析師通常是通過關鍵詞在數(shù)據(jù)資產(chǎn)中進行搜索。而現(xiàn)在,分析師或運營專員可以完整地表達自己的思路,DataAgent 能夠自動解析這一分析框架,識別出其中涉及的數(shù)據(jù)資產(chǎn)。隨后,系統(tǒng)會智能匹配并推薦最適合的分析內容。
五、小結
以上就是對智能分析和智能找數(shù)兩大產(chǎn)品的介紹。
在真實業(yè)務場景中,智能找數(shù)和智能問數(shù)并非孤立存在的,兩者在業(yè)務閉環(huán)過程中是一個完整體。業(yè)務人員分兩種,一種是完全不了解數(shù)據(jù)分析技術,一種是掌握一些數(shù)據(jù)分析技術。我們的產(chǎn)品在這兩種不同類型的人做數(shù)據(jù)消費時,都能形成一個閉環(huán)。不懂技術的可以去看數(shù)據(jù),懂技術的可以去找數(shù)據(jù)資產(chǎn),找到數(shù)據(jù)資產(chǎn)后通過編排快速生成專屬 Agent,或者基于問數(shù)繼續(xù)提問來得到答案。兩個產(chǎn)品之間可以實現(xiàn)快速的切換和連接。
如何發(fā)揮企業(yè)中人的力量,讓企業(yè)中的每個人都可以用智能的方式服務好相應的業(yè)務,這正是瓴羊致力于解決的問題。當然,AI 時代還將會有更多數(shù)據(jù)消費 Agent 實踐,期待與大家一起去挖掘更多的業(yè)務場景和價值。