谷歌把打敗99%程序員的AutoML集成到Kaggle平臺(tái)!
以后參加Kaggle競賽,可以直接派出AutoML自動(dòng)訓(xùn)練AI怪獸參賽了。谷歌今天宣布,將Cloud AutoML服務(wù)深度集成到Kaggle平臺(tái),雖然是付費(fèi)服務(wù),但提供了一攬子免費(fèi)試用和補(bǔ)貼方案。
谷歌宣布,將用于訓(xùn)練機(jī)器學(xué)習(xí)算法的Cloud AutoML服務(wù)集成到數(shù)據(jù)科學(xué)平臺(tái)Kaggle中。
Cloud AutoML是一個(gè)基于云的工具包,提供一個(gè)拖放界面來訓(xùn)練AI模型。使用AutoML,任何人都可以創(chuàng)建定制的機(jī)器學(xué)習(xí)模型,只需極少的工作量和機(jī)器學(xué)習(xí)專業(yè)知識(shí)。
Kaggle是一個(gè)供數(shù)據(jù)科學(xué)家和其他機(jī)器學(xué)習(xí)愛好者探索、分析和分享他們的工作的在線社區(qū),被谷歌于2017年收購。Kaggle也是全球最大的機(jī)器學(xué)習(xí)及數(shù)據(jù)科學(xué)競賽平臺(tái),就在今天,谷歌宣布Kaggle社區(qū)最近達(dá)到了一個(gè)新的里程碑,用戶數(shù)突破了350萬。
谷歌表示,通過將Cloud AutoML與Kaggle整合在一起,它正在推進(jìn)其使命,即“通過為他們提供在該領(lǐng)域領(lǐng)先所需的技能和工具,使我們的數(shù)據(jù)科學(xué)家社區(qū)更加強(qiáng)大”。
Cloud AutoML允許用戶從軟件開發(fā)工具包或基于web的用戶界面獲取數(shù)據(jù),設(shè)置一些參數(shù),然后根據(jù)這些數(shù)據(jù)訓(xùn)練模型;經(jīng)過訓(xùn)練的模型隨后可以直接部署到谷歌的云基礎(chǔ)架構(gòu)上。
新的集成將使Kaggle用戶能夠在Jupyter Notebooks中直接使用 Cloud AutoML SDK,這是數(shù)據(jù)科學(xué)家用來創(chuàng)建和共享包含實(shí)時(shí)代碼、公式、可視化和敘述性文本的開源web應(yīng)用程序。
Kaggle產(chǎn)品經(jīng)理Devvret Rishi說:“今天發(fā)布的重點(diǎn)是使我們的社區(qū)能夠在Kaggle Notebooks上直接使用SDK。”
Cloud AutoML是一項(xiàng)付費(fèi)服務(wù),不過它為初學(xué)者提供了免費(fèi)試用方案。谷歌還為用戶全年提供谷歌云平臺(tái)(GCP)積分,以幫助補(bǔ)貼在Kaggle上使用AutoML的成本,并且,所有注冊GCP的新Google帳戶都將獲得$ 300的補(bǔ)貼。
今年6月,谷歌還將BigQuery數(shù)據(jù)倉庫服務(wù)和Kaggle集成在一起。該集成允許BigQuery用戶使用快速SQL查詢,在SQL中訓(xùn)練機(jī)器學(xué)習(xí)模型,并在Kaggle的Jupyter筆記本環(huán)境中進(jìn)行分析,稱為Kaggle Kernels。
根據(jù)谷歌的說法,這種方法的好處在于,用戶無需實(shí)際移動(dòng)或下載數(shù)據(jù)來查詢數(shù)據(jù)或?qū)ζ溥M(jìn)行機(jī)器學(xué)習(xí)。一旦用戶的Google Cloud帳戶鏈接到內(nèi)核筆記本或腳本,就可以使用BigQuery API客戶端庫直接在筆記本中撰寫查詢,針對(duì)BigQuery運(yùn)行查詢,并使用數(shù)據(jù)進(jìn)行幾乎任何類型的分析。
AutoML有多強(qiáng):Kaggle競賽擊敗99%人類程序員
AutoML在今年早些時(shí)候就引起了人們的關(guān)注,它在Cloud Next '19的Kaggle Days舉行的機(jī)器學(xué)習(xí)競賽中一度脫穎而出,只是在最后時(shí)刻才被一組數(shù)據(jù)科學(xué)家以微弱優(yōu)勢淘汰。
今年4月,在長達(dá)8個(gè)半小時(shí)的Kaggle Days數(shù)據(jù)處理挑戰(zhàn)上,有一個(gè)團(tuán)隊(duì)非常特別:這個(gè)由3名谷歌研究員組成的小組不打算自己上場,而是用一款名為AutoML的AI軟件參與競賽。
其他200多名參與者來自Kaggle平臺(tái)的頂級(jí)梯隊(duì),他們組成多個(gè)小組,任務(wù)是“從一家匿名汽車零部件制造商那里得到數(shù)據(jù),通過這些數(shù)據(jù),他們要預(yù)測工廠產(chǎn)出中的不良批次”。
谷歌研究員Quoc Le與同事Ming Chen和Lu Yifeng Lu一起領(lǐng)導(dǎo)了AutoML項(xiàng)目
現(xiàn)場掛著一塊大屏幕,上面是比賽即時(shí)排行榜,參賽的程序員就在這塊大屏幕的陰影下辛勤工作。程序員們通過向網(wǎng)站提交代碼進(jìn)行測試來衡量他們在比賽中的成果,分?jǐn)?shù)會(huì)實(shí)時(shí)顯示在屏幕上。
對(duì)于AI可能取代頂尖程序員這一點(diǎn),Kaggle.com上排名第一的“大師”Vladimir Iglovikov表示懷疑,在場的大多數(shù)人也都認(rèn)為,AI軟件不可能與世界頂尖的數(shù)據(jù)科學(xué)家的創(chuàng)造力相媲美。
然而,比賽進(jìn)行幾個(gè)小時(shí)后,讓人震驚的結(jié)果出現(xiàn)了,AutoML提交了第1個(gè)自動(dòng)生成的代碼,在排行榜上名列第2,領(lǐng)先了絕大多數(shù)小組。但這對(duì)于谷歌團(tuán)隊(duì)來說一點(diǎn)都不奇怪,該軟件是3年前他們花巨資開發(fā)的,一開始的目的就是要替代自己的部分工作。
領(lǐng)導(dǎo)了谷歌AutoML開發(fā)的AI研究員Quoc Le感到興奮。他和團(tuán)隊(duì)在過去的幾場Kaggle比賽中測試了AutoML,通常都需要花費(fèi)幾個(gè)月而不是幾個(gè)小時(shí)。他們認(rèn)為在現(xiàn)場比賽中AutoML能取得前10%的成績就算是成功了。
到了下午3:30,AutoML的勝利似乎已成定局,最接近它的人類團(tuán)隊(duì)也落后很遠(yuǎn)。當(dāng)選手們在下午5:30集合查看最終比分時(shí),歡呼聲爆發(fā)了:AutoML 排名第二。
AutoML贏了99%的頂尖人類程序員。
而且在競賽中,使用AutoML的團(tuán)隊(duì)只需要付出較少的精力,就能迅速獲得出色的性能,并且無需領(lǐng)域?qū)I(yè)知識(shí)或監(jiān)督。在數(shù)據(jù)準(zhǔn)備上花費(fèi)時(shí)間很少,而在特征工程、模型選擇和超參數(shù)調(diào)參上幾乎不用花什么時(shí)間。
此外,在另一個(gè)IEEE的競賽中,AutoML的時(shí)間效率的優(yōu)勢更加突出,數(shù)千團(tuán)隊(duì)花了幾周的時(shí)間,才能在排行榜上大幅超越AutoML的基準(zhǔn)水平。
上圖為該賽事前四周的提交分?jǐn)?shù)(個(gè)人得分),與比賽開始時(shí)發(fā)布的AutoML Tables基準(zhǔn)分?jǐn)?shù)(綠線)。藍(lán)點(diǎn)虛線表示每日提交分?jǐn)?shù)的90%分位水平。AutoML Tables基準(zhǔn)在比賽的前兩周中都超過了這一水平
AutoML的簡單性和有效性為存在數(shù)據(jù)科學(xué)問題需求的人群(這些人不一定具有深厚的數(shù)據(jù)科學(xué)背景)提供了創(chuàng)建性能強(qiáng)大的模型的可能。
大酬賓:Kaggle用戶使用AutoML,每個(gè)關(guān)聯(lián)賬號(hào)補(bǔ)貼300刀
Cloud AutoML可幫助用戶針對(duì)各種任務(wù)集(視覺,語言到結(jié)構(gòu)化數(shù)據(jù))構(gòu)建自定義機(jī)器學(xué)習(xí)模型。每種應(yīng)用的實(shí)際用法各不相同,但所有方法都遵循從SDK或Web UI提取數(shù)據(jù)的一般模式,用戶可以調(diào)節(jié)設(shè)置,并輸出訓(xùn)練好的模型。今天的重點(diǎn)是,我們的社區(qū)已經(jīng)能夠直接在Kaggle Notebook中使用SDK。
簡單上手:如何在Kaggle平臺(tái)上使用AutoML
Kaggle與AutoML的集成遵循了我們先前將BigQuery引入Kaggle Notebook的腳步。
首先,只需關(guān)聯(lián)用戶的GCP帳戶并授權(quán)訪問要使用的云服務(wù),同時(shí)啟用云存儲(chǔ)將使AutoML輕松訪問您的數(shù)據(jù)。
關(guān)聯(lián)Google帳戶后,需要仔細(xì)檢查云帳戶是否已準(zhǔn)備就緒。為此,請確保已為GCP項(xiàng)目啟用了機(jī)器學(xué)習(xí)API和結(jié)算設(shè)置。AutoML是一項(xiàng)付費(fèi)服務(wù),為了使更多的Kagglers可以使用AutoML,我們計(jì)劃在全年內(nèi)提供GCP積分,以補(bǔ)貼使用該服務(wù)的費(fèi)用,所有注冊G谷歌云平臺(tái)的新帳戶都將獲得300美元的額度。
用戶可以使用Kaggle Notebook中的內(nèi)置客戶端SDK,也可以使用云控制臺(tái)中的Web界面輕松運(yùn)行AutoML。要在Notebook中使用AutoML,請查看幫助文檔或教程。要了解有關(guān)自動(dòng)機(jī)器學(xué)習(xí)的主題及其改善數(shù)據(jù)科學(xué)工作流程的更多信息,請觀看我們的講解視頻。
現(xiàn)在,AutoML已經(jīng)深度集成到Kaggle競賽平臺(tái),相信今后的Kaggle競賽,派出AutoML參賽的程序員會(huì)越來越多。