AI建模不再難:九章云極DataCanvas發布兩大開源成果
原創【51CTO.com原創稿件】 “軟件基礎設施會經歷一場重大升級,AI落地會是通過軟件基礎設施升級來實現,一千朵行業云里面的軟件基礎設施升級會是數據智能這個‘新IT’的歷史性機遇,九章云極DataCanvas預測這個未來,也擁抱這個愿景。”日前在北京召開的“2021年數智化高峰論壇”上,九章云極DataCanvas董事長方磊如是說。
中國的AI生態正呈現蓬勃發展之勢。如何全面加速AI在各行業場景的落地應用,如何利用AI基礎軟件加速企業數智化升級,是當前AI領域關注的焦點。
面向AI落地的諸多挑戰,多年來在數據科學領域深耕的九章云極DataCanvas致力于在兩個方面實現突破:一是通過機器學習和深度學習的自動化,將機器學習建模的能力下沉,實現AI能力的普及化;二是讓數據分析的速度更快,服務更及時,從準實時變成毫秒級的實時響應。
就在本次高峰論壇上,九章云極DataCanvas聯合創始人暨CTO尚明棟現場開源發布兩大自主研發的技術成果——DAT自動機器學習工具包和DingoDB實時交互式分析數據庫,恰好為以上兩個方面做出了新解。
端到端AutoML:降低AI建模門檻,推動應用百花齊放
傳統的AI模型訓練往往要經歷數據準備、特征工程、模型選擇、調參評估等步驟,每一步都無法省略,而且耗時較長,動輒數月。于是自動機器學習(AutoML)技術應運而生,即以自動化的方式,讓機器自己來解決這些問題。可以說,AutoML是推進行業AI應用落地的重要技術路徑,對于降低AI應用門檻、繁榮AI生態有著深刻意義。
九章云極DataCanvas資深架構師楊健介紹,DataCanvas AutoML Toolkit(DAT)是一個自動機器學習工具套件包,包含了一系列功能強大的AutoML開源工具。該自動建模工具從底層的通用自動機器學習框架到用于結構化及非結構化領域實現了端到端的覆蓋,并率先突破機器學習建模過程中“不均衡、概念漂移、泛化能力和大規模數據”4大難點。
DAT就像一個儲備豐富的“武器庫”,收羅了包括??Hypernets???、??DeepTables???、??HyperGBM???、??Cooka??在內的各式“奇兵神器”。
構建模型就像搭積木,第一步要確定哪些部件可以用。為此需要先將可用部件編碼,定義一個搜索空間,在這個范圍內進行篩選;然后確定搜索策略,也就是以一定的方法在眾多積木里找到最適合的部件,并且適當地組合它們;最后還需要一個評價標準,用來測試搭建好的模型是否能用、是否好用。所以一款優秀的AutoML框架應當具有:富有表現力的搜索空間描述語言、高效搜索算法和高性能的評估策略。Hypernets就是這樣一個自動機器學習的底層通用框架,可以和各種機器學習、深度學習框架結合開發出專用的自動機器學習工具;同時提供開放的訓練服務框架,可以滿足單節點及分布式高性能的模型訓練需求,大大降低了AutoML工具的開發門檻;最新的神經網絡架構搜索(NAS)算法的支持,也讓深度學習的網絡架構設計實現自動化。
此外,DeepTables作為用于結構化數據建模的深度學習工具,具有開箱即用、架構靈活、簡單易用等特點,解決了深度學習在結構化數據上表現不佳的難題,在大量的公開數據集上甚至擊敗了XGBoost、LightGBM等傳統算法;
HyperGBM則是基于Hypernets框架融合了多款先進的GBM模型的自動建模工具,不僅能實現全自動機器學習的一鍵訓練,同時還能把整個Pipeline合成單一模型實現一鍵上線,徹底解決生產化困擾;
而對于沒有編程基礎的非專業人員,選擇Cooka可以輕松完成機器學習建模工作。作為一款界面友好的開源交互式自動機器學習系統,Cooka操作簡便,安裝在便攜式電腦中即可運行。借助Cooka,使用HyperGBM和DeepTables也會變得更加輕松。
綜上可以看到,一個好用的 AutoML 平臺可以覆蓋機器學習的所有步驟。甚至是非IT人員,只要準備好數據,就能得到適合任務目標的模型,這必將對于AI融入千行百業,AI應用百花齊放影響深遠。
實時數據分析:配合AI模型,更高效地洞察和預判世界
方磊在大會主題演講中提到,實時的數據處理非常重要。假如模型訓練完畢后,要很長時間才能輸出結果,那無疑是令人失望的。比如,一個無人值守的油田發生某種緊急情況需要報警,那么只有當數據收集是實時的、數據處理是實時的、模型預測是實時的,最終結果才能實時通知到相關個人和團隊,或者在別的機器上有所反映。這一過程所涉及的核心技術就是實時數據庫。只有讓數據實時流動起來,配合智能模型才能幫助人類更好地感知這個世界,更加自動化、智能化地做出預判。
九章云極DataCanvas產品總監胡宗星向與會者詳細解讀了實時分析數據庫??DingoDB??。
DingoDB是新一代集分析與服務于一體的實時分析數據庫HSAP(Hybrid Serving & Analytical Processing),支持高頻修改和查詢、實時交互式分析、實時多維分析。
具體來說,這款實時分析數據庫的主要創新點在于:其一、智能優化器實現行列優化選擇。DingoDB數據庫內置智能SQL優化器,能夠實現分析性SQL、記錄級SQL的自動優化,基于不同的業務場景實現行存模式、列存模式的智能選擇。DingoDB能夠通過列存模式實現數據聚合計算,實現高效分析;針對記錄級的查詢、更新操作,DingoDB通過行存的模式實現數據的快速定位,實現數據的查詢和更新操作;其二、高頻點查、修改操作。為了滿足數據的時效性需求,DingoDB數據存儲采用Key-Value的模式實現存儲,同時基于數據的副本策略實現數據的行列混合存儲。針對高頻記錄級的場景,如數據關聯、記錄修改等場景,可以實現記錄級的高并發、高頻率的查詢、修改操作;其三,多副本機制存算彈性擴展。DingoDB數據表采用多分區多副本機制,保證了數據的安全性和穩定性;同時存儲、計算分離的模式保證了容器化部署的橫向擴展,實現了計算和存儲的數據彈性。
將AI嵌入每一朵云,開啟真正的數智時代
無論是對于AutoML,還是AI基礎軟件,抑或數據智能,很多行業用戶的認知在最開始都并不明晰。在會后的采訪中,九章云極DataCanvas聯合創始人兼CTO尚明棟提到,原來用戶可能更傾向于拿到某個基于具體業務場景的AI解決方案,但這種單獨定制的解決方案并非長久之計,不僅在后續運維管理中可能遺患無窮,就規模化落地而言也是障礙重重。因此,加強AI基礎軟件建設,提升AI自主開發能力對每個企業的數智化轉型來說都是必要的。
當前在一些行業頭部企業,AI基礎軟件的完善升級已經帶來了切實可見的收益,比如實現了智能風控、實時審批的金融業,可以進行零部件智能檢測、設備預測性維護的制造業等等。AI應用的落地讓降本增效并非空談。
這些行業的頭部群體也正是九章云極DataCanvas的主要服務對象。因為這部分客戶的需求最迫切,數據資產足夠厚實,且有資金也有技術能力實現AI的自主開發。基于對中國未來AI行業生態發展的預判,九章云極DataCanvas建設性地提出了“云中云”戰略,即將AI基礎架構及相關AI能力,嵌入到形形色色的行業云、企業云等云中。將九章云極DataCanvas的AI能力隨云輸出,起到事半功倍、借力打力的效用。
在技術能力上,九章云極DataCanvas將繼續深化在開源數據科學領域的造詣,為AI應用落地打造更普適的工具平臺;在遠景規劃上,打造千朵云生態的AI基礎軟件則為其打開了更廣闊的商業空間和更有想象力的創造空間。在數智化浪潮中,且讓我們心懷期待,蓄力前行。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】