AIGC + BI = ChatBI,網易數帆讓人人都擁有數據分析能力
原創2023 年,AIGC 無疑是最火熱的技術之一。除了通用大模型以外,產業界也都在紛紛探索垂直大模型以及 AIGC 技術如何為企業賦能。近日,網易數帆發布了有數 ChatBI,將 AIGC 技術與 BI 技術結合,讓用戶通過日常對話的方式就可以擁有數據分析能力,降低了數據消費門檻,讓人人都能擁有數據分析的能力。
網易數帆發布 ChatBI 探索新數據消費模式
過去,數據分析是數據科學家和數據分析師的“專利”,普通業務人員如果需要分析數據,需要提出需求,由數據分析師以及工程師進行運算,得出數據分析的結果,流程長且繁瑣,往往不能及時滿足業務分析需求。那是否有人人都可以使用的數據分析功能呢?
網易數帆大數據產品線總經理余利華表示,以 ChatGPT 為代表的 AIGC 技術的出現,帶來了新的交互模式的變化。網易數帆推出的有數 ChatBI,可以降低數據消費門檻,讓不懂技術的人也能輕松獲得數據。
據了解,有數 ChatBI 具有三大特點,一是門檻更低,利用大模型的自然語言理解能力,用戶只需要與 AI 助手進行對話,即可獲得數據,提升用戶獲取數據分析的便利性;二是效率更優,借助大模型的能力理解用戶需求,從對話轉換為數據庫查表和可視化圖表,提升用戶的分析效率;三是智能化,從人工設計的規則和模型轉化為自動學習的規則,能夠處理更復雜和更深度的數據分析任務。
據了解,有數 ChatBI 接入的大模型是網易自研的垂直大模型。網易自研的大模型基座,稱為玉言大模型,由伏羲實驗室和網易數帆共建。網易數帆大數據團隊在玉言大模型的基礎上,進行了微調和數據訓練,從而形成針對BI場景下的垂直大模型。網易數帆認為,與傳統AI技術,如語音識別類似,一旦到了垂直領域,通用模型的效果就難以滿足生產級的需求,特別是要求高、容錯度低的場景。換言之,在企業級專業領域的應用,垂直領域大模型一定比通用大模型更適合。這是因為,垂直大模型有太多的優化策略可以做到針對性的提升,不管基座如何變化,都會有加成作用。
余利華介紹道,有數 ChatBI 是支持模型切換的,如果有更好的模型或者開源模型,網易數帆也會考慮集成。但是在集成前,網易數帆會根據數據測試集來評估模型的好壞,從而進行選擇和集成。
突破可信困局,讓 AIGC 可信
人可以睜眼說瞎話指鹿為馬,而 AIGC 也可以一本正經地提供不準確的答案。然而,很多用戶都沒有能力來判斷 AIGC 給出的答案是否正確。
余利華表示,網易數帆大數據團隊的目標是希望降低數據的使用門檻,特別是不懂技術的人也能夠輕松地完成數據的使用。但是實現這一目標的挑戰主要在于 AI 幻覺。
AI 幻覺的產生是由于訓練數據不足、文本與表示之間的編解碼錯誤等因素。當 AI 一本正經的胡說八道時,它給出的答案,你是否還會相信呢?余利華表示,如果結果是不可信的,那做任何更多的功能都是沒有價值的。
為此,網易數帆突破可信的困局,讓用戶擁有判斷 AI 正確與否的能力,即使 AI 提供錯誤的答案,用戶也知道錯在哪里。有數 ChatBI 從四個方面來去確保用戶獲得正確、可信的結果。
首先,需求可理解,是指網易數帆為彌補用戶認知和復雜工具之間的門檻,提升準確率,借助大模型的語言理解能力,先進行需求分析,這樣即使是完全不懂BI的使用者也能通過需求分析內容判斷系統的取數步驟是否正確。
其次,過程可驗證,即借助基于大模型的NL2SQL能力實現復核。為了提升NL2SQL能力,網易數帆有針對性地定制生成和優化了超過30萬不同類型的問法和SQL。余利華介紹,網易數帆調優出的NL2SQL領域模型,效果已達到GPT-3.5的水平,但是速度更快,消耗更少的硬件資源,甚至支持消費級顯卡部署。這也是垂直大模型針對性優化策略帶來的效果。
第三,用戶可干預,即將數據模型和查詢條件結構化,用戶可干預可調整,切換數據模型或者查詢條件。
第四,產品可運營,即網易數帆為有數ChatBI產品構建了獨特的運營反饋機制,用戶可以反饋數據的準確性,管理員可運營知識庫、標記及優化badcase,從而提升數據可靠性。
余利華表示,ChatBI 只是網易數帆很小的一個起步。整個 BI 分為數據準備、數據分析和數據應用三個階段,每個階段都有 AI 落地的場景。未來,網易數帆大數據團隊還會持續在 DataOps 和 AIGC技術等方面進行探索,支持企業快速沉淀數據資產,降低數據的消費門檻,推動數據價值能夠真正地普惠到各個行業。