如何讓人工智能更智能?你需要一個開源平臺
2020年6月19日,奧斯納布呂克州下薩克森:Melanie Ploppa老師在教室中為小學生們上課。由于新冠隔離法規的限制,目前各學校必須采取特殊的衛生管理措施。另外,課堂中學生的數量也受到控制。
在COVID-19疫情全面爆發之后,眾多在校學生開始在家中參與網課,但事實證明這樣的隔空授課方式確實無法與常規課堂相媲美。人們還普遍意識到,現實中面對面交流問題、討論思路、明確團隊挑戰并以小組形式達成目標的整個過程,確實可以帶來更好的學習效果。沒錯,不然的話我們要學校干什么?
但同樣的互連互用技術,能否幫助計算機在構建數據驅動型人工智能(AI)知識庫與軟件驅動型分析引擎時,也達成更好的“學習”效果?
機器學習中的開放性
最近,業界涌現了不少開放式AI用例。比如,今年6月,Databricks就憑借其開源機器學習成果正式加入Linux基金會。Databricks方面將項目命名為MLflow,旨在體現其以端到端流程的形式提供機器學習功能的基本定位,并希望該項目能夠貫穿整個開發生命周期。
在機器學習領域,端到端是一種相當流行的表達方式,主要強調軟件工具從開發生命周期的一端持續作用至另一端的全面涵蓋能力。
而如果從術語的角度出發,端到端則對整個數據流程做出了如下要求:準備(包括解析數據以及重復數據刪除)、實驗階段、將代碼打包為“可重復運行”形式(可在操作系統中以智能模塊的形式進行自由組合,并實現對應功能的即插即用)、最后進入可靈活共享與協作的AI模型。
其中最重要的是“協作”部分,即通過開放(也是實質意義上的開源)平臺、渠道社區實現AI與ML數據集、處理引擎乃至其他深度學習工具的共享能力。業界目前普遍相信,這才是生產力更高、且更加自然的機器學習實現方式。
Databricks的MLflow項目已經擁有兩年發展歷史,期間有200多位貢獻者參與其中。而將其交由Linux基金會打理將保證項目本身形成一條獨立于任何特定廠商之外的發展路線,同時選擇一套開放的治理模型以擴大成果采用與社群貢獻。
Databricks方面解釋道,他們當年創建MLflow的初衷在于解決機器學習模型開發流程中“固有的復雜性因素”。相信有從業經歷的朋友都能感受到,這樣一個涉及機器模型構建、訓練、調優、部署與管理的流程確實相當令人頭痛。
Linux基金會戰略計劃副總裁Michael Dolan表示:“社區參與度的穩定增長表明,數據團隊必須致力于構建起未來的機器學習平臺。采用率的提升也意味著,我們必須采用開源方法以實現機器學習生命周期的標準化。我們與世界上多個優秀開源項目保持著合作關系,相關經驗也讓我們意識到,開放治理模型確實可以通過廣泛的行業貢獻與共識加快技術成果的創新與采用速度。”
推動數字智能的普及
從某種程度上看,通過開源代碼開發還可以有力推動數字智能的普及。2020年6月,Abbyy發布了NeoML開源代碼庫,專門用于構建、訓練及部署機器學習模型。這家在硅谷、俄羅斯、歐洲以及遠東地區皆有業務體系的廠商向來專業文檔捕捉與管理業務,但在最近的經營范圍擴展之后,他們開始為企業客戶提供數字智能技術方案。
NeoML的源代碼已經可以通過GitHub輕松獲取,其同時支持深度學習與傳統機器學習算法。作為一套跨平臺框架,它能夠針對云環境、臺式機以及移動設備之上運行的各類應用程序實現智能優化。
之前提到的Databricks開放式智能技術主要用于大數據處理與云計算“集群”管理,而Abbyy的機器學習模型則專門針對圖像處理任務進行優化,旨在為運行在任意設備上的預訓練模型提供更出色的推理性能。兩個項目分別針對不同的技術用例,也各自擁有不同的智能化水平,但其核心訴求都在于充分發揮并回饋開放社區中的貢獻者力量。
Abbyy公司表示,隨著他們將開源視為核心任務軟件開發層面的主要方向,95%的IT管理者都開始重視這一波戰略性趨勢。Abbyy方面也將通過開源推動其機器學習框架快速發展,進而支持AI的不斷完善。如今,軟件開發者們可以直接使用NeoML構建、訓練并部署各類模型,借此實現對象識別、分類、語義細分、驗證以及預測等針對不同業務目標的模型方案。
Abbyy公司AI布道師Ivan Yamshchikov還公布了更多具體用例,銀行可以使用這項技術開發出管理信貸風險與預測客戶流失的模型;電信企業可以借此分析營銷活動的具體效果;零售與快速消費品(FMCG)企業則可建立起包含人臉識別與數據驗證功能的遠程客戶標記方案。
Yamshchikov指出,“通過將我們的框架共享給整個開源領域,開發者們能夠借此實現推理提速、跨平臺功能并充分發揮移動設備的計算潛力,而他們的反饋與貢獻又將不斷完善并改進我們的這套代碼庫。我們樂于看到AI技術的整體進步,也將努力讓機器學習走進更多更具價值、影響力更強的用例。”
敞開你的“心扉”
但是,開源真是實現優秀AI智能的唯一途徑嗎?技術領域不能搞粗暴的民粹,封閉的專有圈子同樣是機器學習技術領域重要且產出豐厚的一片疆土。只有不斷擴展學習交流范圍,甚至直接分享具體學習模型,才有可能真正實現AI技術的大眾化進程。
以Abbyy打造的NeoML項目為例,這項技術支持開放神經網絡交換(ONNX),這是一套具備可互操作性的機器學習模型全球開放生態系統。項目主旨在于改善各類工具間的兼容性,保證軟件開發人員能夠輕松使用正確的工具組合實現預期功能。微軟、Facebook等多家合作伙伴已經加入到ONNX開源標準中來,相信未來開放式AI智能將變得愈發普遍。
這可能就是人們常說的“敞開心扉”吧。