企業中的機器學習:下一個萬億級的增長從哪來?
在“哈利.波特”的世界中,分院帽是一種算法,可以獲得學生的行為歷史、喜好和性格等方面的數據,然后據此作出決定,確定學生應該進入霍格沃茨學校里的哪一個分院。如果現實世界里存在這樣的分院帽的話,它應該會是機器學習應用程序,可以根據復雜的數據集自主地做出決策。如今,機器學習正在推動數萬億規模的全球產業,例如醫療保健、安全和農業等。
如果機器學習有望創造可觀的價值,那么問題來了:這些價值將在哪里產生呢?在本文中,筆者將介紹三種類型的公司創造并獲取價值的方式:應用機器學習的傳統公司、構建無行業屬性機器學習工具的公司以及構建垂直集成機器學習應用的公司。
機器學習不僅僅是科技巨頭的游戲
臉書、亞馬遜、蘋果、網飛和谷歌在機器學習方面的創新廣為人知,從新聞推送到推薦引擎不一而足,但是絕大部分人還沒有意識到傳統行業對機器學習的需求正在日益增長。預計到2023年,全球人工智能系統支出將達到980億美元,比2019年支出規模的2.5倍還要多,其中金融服務,零售和汽車領域處于領先地位。
比如,掌管了超過7萬億美元資產的投資管理公司黑石(Blackrock)在2018年推出了幾款機器學習支撐的ETF產品。而目前,機器學習也已經在醫療保健行業引發了廣泛的關注,涉及醫療影像、診斷和藥物發現的機器學習解決方案的預算有望在未來三年內達到100億美元的規模。
在這些企業客戶中,出現了三個廣泛的客戶群:軟件工程師、數據科學家和業務分析師,業務分析師有時也被稱為“公民數據科學家”。盡管業務分析師受過的技術培訓水平較低,但是他們構成了一個龐大并且不斷增長的用戶群體,這個群體正在應用機器學習幫助他們的企業利用自身不斷增長的數據存儲庫。
機器學習工具已經滲透進入各行各業
為了適應這些客戶群體,希望在這輪淘金熱中賣鎬的公司數量不斷激增。曾經在特斯拉和Snap擔任過工程副總裁的Stuart Bowers表示:“挑戰并不在于讓機器學習變得透明,而是讓痛苦的部分(例如日志記錄、數據管理、部署和可再現性)變得容易,然后讓模型訓練變得高效并且可調試。”
作為銷售更多基礎架構服務策略的一部分,現存的供應商——特別是那些公有云供應商已經采用了“端到端平臺”的方式。舉例來說,AWS的機器學習平臺Sagemaker最初是面向專家開發人員和數據科學家的,它最近推出了Sagemaker Studio,以將受眾群體擴大到技術背景較弱的用戶。對于像AWS這樣的技術巨頭來說,銷售機器學習工具是一種推動其客戶增加基礎設施支出的方式,這意味著他們有能力以很低的成本提供這些工具。
獨角獸們還經常會和云服務供應商合作創造價值。比如,Databricks就是一個機器學習平臺,以強大的數據工程功能聞名,平臺建立在Apache Spark的基礎之上。該公司成立于2013年,如今價值62億美元。DataBricks和微軟之間的合作伙伴關系讓微軟的Azure能夠處理更多的數據和計算,同時也極大地幫助DataBricks拓展了市場。
然而,企業從業人員們開始要求“同類最佳”解決方案,而不是那些意在吸引他們購買更多基礎架構的工具。為了解決這個問題,下一代的創業企業將會追求更具針對性的方法。和當前各大現有平臺廣泛采用的模式相反,初創企業可以選擇特定問題并開發專用工具,這樣可以更有效地解決這些問題。在機器學習工具領域,現在存在著三大問題對用戶構成了重大挑戰。
- 數據集管理
雖然機器學習的結果可能看起來很優雅,但實際上,從業人員要將大部分的時間花在數據清理、整理和轉換工作上。因為數據越來越多地以各種不同的格式分散在多臺機器和云之中,因此將數據變成同一種可消費的格式,讓團隊能夠輕松使用并且將其用于協作是非常困難的一件事。
為了解決這個問題,Tecton的聯合創始人兼首席執行官Mike Del Balso正在通過他新的創業公司使他在Uber倡導的最佳實踐民主化。他表示:“被破壞的數據是導致生產機器學習系統出現問題的最常見原因。建模人員將大部分時間都花在訓練時選擇和轉換功能,然后建立管道,將這些功能傳遞到生產模型之中。” Tecton構建了一個平臺來管理這些“功能”,并以這種方式來簡化數據層的復雜性,從企業原始數據中收集到的智能實時信號對于優化機器學習至關重要。
在更上游,Liquidata正在為數據庫構建開源的GitHub等效項。在我與Liquidata的聯合創始人兼首席執行官Tim Sehn(他曾經是Snap的前工程副總裁)的談話中,他強調“就像開源軟件一樣,我們需要在開放數據方面進行協作——在互聯網級別。這就是為什么我們創建了DoltHub的原因,DoltHub是互聯網上免費存儲、托管和協作數據的地方。”
- 實驗跟蹤和版本控制
另一個常見的問題是結果之間缺乏可重復性。機器學習模型版本控制的缺位讓實驗變得很難復現。
正如Weights and Biases的聯合創始人兼首席執行官Lukas Biewald在接受我們的采訪時分享的那樣,“如今,最大的痛苦是缺乏基本的軟件和最佳實踐來管理全新的編碼風格。你無法使用糟糕的畫筆很好地作畫,你沒有辦法在糟糕的IDE(集成開發環境)中很好地編寫代碼,你也無法使用我們現在擁有的工具構建和部署很棒的深度學習模型。”他的公司于2018年推出了一個實驗跟蹤解決方案,讓OpenAI等客戶能夠將見解從單個研究人員擴散到整個團隊。
- 模型可擴展
對于這個正在成熟的市場來說或,建立基礎架構以在生產中擴展模型部署并監控結果是另一個重要的問題。
Anyscale是開源框架Ray背后的公司,這家初創公司已經抽象出了分布式應用程序和可擴展機器學習的基礎架構。在我同Anyscale的聯合創始人兼首席執行官Robert Nishihara的交談中,他分享了自己的想法,“就像微軟的操作系統為開發人員工具和應用程序創造了一個生態系統一樣,我們也在創造基礎架構,以支持應用程序和庫的富生態系統,從模型訓練到部署,讓開發人員可以輕松地擴展機器學習應用程序。”
在自然語言處理或者被稱為NLP的領域中,可擴展性也在飛速發展。Hugging Face建立了一個開源庫來構建、訓練和共享NLP模型。該公司的聯合創始人兼首席執行官ClémentDelangue表示:“過去三年中發生了范式轉變,NLP的轉換學習開始極大地改變了將NLP集成到業務應用程序中的可用性和準確性。”他表示:“我們讓企業有可能在一周而不是幾個月之內,將最新研究的NLP模型應用于生產。”
其他有前途的初創公司包括Streamlit,該公司讓開發人員可以僅僅使用幾行Python就創建機器學習應用并立刻進行部署。OctoML為機器學習應用了附加的智能層,是系統變得更加易于優化和部署。Fiddler Labs已經建立了Explainable AI Platform(可解釋的人工智能平臺),可以不間斷地解釋和監控生產結果。
要想在與老牌公司的激烈競爭中建立起長期穩固的公司,初創公司必須問自己兩個問題:對于哪些客戶來說我們是必不可少的?接觸這些客戶的最佳方式是什么?
很多初創公司會提出想法,要在某個大市場中占據1%的份額,但是通常來說,這些大市場就算沒有過度擁擠,其中的需求也已經得到了很好地滿足。專注于贏得核心客戶群的公司必須展現出強大的早期吸引力,這將轉化為長期擴展潛力。為了吸引這些客戶,Databricks和Datarobot等大多數成型企業都采用了自上而下的企業銷售方式。與我們在開發人員工具領域中看到的情況類似,我期待著機器學習初創企業最終將從單純的企業銷售發展為推動自下而上的采用,并獲得更多優勢,勝過當今以企業為中心的成型公司。
垂直集成的機器學習應用程序正在顛覆現狀
機器學習領域中一些最令人興奮的公司正在開拓新的商業模式以顛覆整個行業。汽車行業就是個最明顯的例子,僅僅在2019年一年,就有100億美元的資金投入到了這個行業。機器學習也將產生革命性影響的下一代垂直市場還包括醫療保健、工業、安全和農業。
Salesforce的首席科學家Richard Socher表示:“在‘機器學習+X’的模式下,機器學習最為有效。”他表示,“最好的機器學習公司都有著清晰的垂直重點。他們甚至不會將自己定義為機器學習公司。”他認為醫療保健領域是一個非常獨特的領域,極有前途:Athelas已將機器學習應用于免疫監測,通過收集病人白血球數量的數據幫助他們優化藥物攝入。Curai利用機器學習技術來提高醫生推薦的效率和質量,讓他們可以把更多的時間花在治療患者的工作上。Zebra和AIdoc通過訓練數據集來更快地確定醫療狀況,從而提高了放射科醫生的工作能力。
在工業和物流領域,Covariant是一家結合了強化學習和神經網絡的初創公司,該公司讓機器人能夠管理大型倉庫設施中的物體;Agility and Dexterity同樣在構建機器人,以越來越復雜的方式適應各種不可預測的情況;Interos應用機器學習技術評估全球供應鏈網絡,幫助企業圍繞供應商管理、業務連續性和風險做出關鍵決策。
在安全和國防領域,Verkada通過智能地分析實時視頻并從中學習,重新構想了企業物理安全;Anduril建立了一個機器學習主干,該主干可以集成來自傳感器塔的數據,以增強國家安全的智能;Shield AI的軟件讓無人系統可以解釋信號,并且在戰場上智能行動。
農業是另一個從機器學習技術中獲得巨大收益的垂直領域。John Deere收購了Blue River Technology,后者是一家開發智能農作物噴灑設備的初創公司。合并后的公司Intelligent Solutions Group的首席科學家Lee Redden表示:“我們引入計算機視覺技術來識別單株植物并針對單株植物采取行動,通過這種方式改變了農業世界。”其他著名的農科企業還包括Indigo,該公司將機器學習用于“精準農業”,利用數據,以更有利可圖、更具可持續性的方式生產食品。
我們將何去何從?
總結來說,機器學習已經悄然成為我們日常生活的一部分,支撐我們的汽車,醫院的運營并保障我們所吃的食物。到目前為止,大型企業孵化了最先進的技術,但是真正的希望存在于下一波機器學習應用程序和工具,將圍繞著機器智能各種華而不實的炒作從哈利.波特式的幻想轉化為有形的社會價值。
對于機器學習能夠在未來幾年內創造的價值,我們有很多理由保持樂觀。傳統企業將訓練數以百萬計的公民數據科學家,將破碎的行業重塑為更高效的行業。機器學習工具將降低構建智能應用程序的門檻,推動數以百萬計的新想法變成產品。垂直機器學習業務模型將讓人們獲得健康的食品,可靠的人身安全保障和負擔得起的醫療保健服務,這是一個民主化的進程。
我們將在這些地方找到機器學習的真正價值。