成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”

新聞 前端
MIT和布朗大學聯合開發了交互式數據科學系統,名字叫Northstar。團隊說,這是“全球最快的交互式AutoML工具”。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

 [[271912]]

 來自《鐵男》科幻劇情里,沒有看過哪位大佬拿Python寫代碼。

眼前凈是藍汪汪的全息畫面,用手指拖幾下,再點幾下,就算出了結果。

“我夜觀星象,算出你上班時間看P站。” (誤)

回到現實,雖說是沒有全息圖,但不寫代碼、拖拖拽拽就能搞機器學習,這等美事已經達成了:

[[271913]]

MIT和布朗大學聯合開發了交互式數據科學系統,名字叫Northstar

團隊說,這是“全球最快的交互式AutoML工具”;除了速度,它生成模型的成績,也已經在DARPA D3M AutoML比賽上超越了所有對手。

作為用戶,你只要加載好數據集,再把想預測的目標,拖進一個預測器。幾 (十) 秒的光景,系統便會幫你找出最適合的機器學習模型。

有位不愿透露姓名的評論員說:

比用TNT還容易。

即便不是數據科學家,也可以充分利用手上的數據,來分析各種行業的現實問題。

并且,這套系統支持多人協作,不管是用同一臺設備還是多臺設備。電腦、平板、交互式白板……各種設備已支持。

[[271914]]

現在,Northstar在工業界和學界都有了用戶,Adobe便是其中之一。

能做些什么?

先拿醫學研究人員舉個栗子。

MIT在波士頓,那么就把整個波士頓的ICU患者健康信息全部投喂給Northstar。

加載完成之后,性別、年齡、BMI、有沒有消化疾病、心臟衰竭等等,各種參數都會進入“屬性 (Attributes) ”這一欄。

 滑動的部分,就是各種屬性

機器學習出場前

可以先觀察不同屬性之間的聯系。

比如,通常認為男性比女性更容易發生心臟衰竭 (Heart Failure) ,就來驗證一下這個規律適不適用。

把“心衰”和“性別”兩個屬性拖出來,然后相連,發現女性的發病人數稍低。但把兩個屬性拖近彼此就會看到,按照比例計算,反而是女性比男性發病率高:

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

 拖到靠近的位置,就可以計算比例

另外,還可以輕松觀察多類疾病共存的概率。

比如,傳染病、血液疾病和代謝疾病。

除了把三者相連之外,Northstar還有一種更簡潔的工具,叫frequent itemset

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

它可以把三類疾病的所有可能組合,概率全部計算出來:

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

最容易并發的是代謝疾病和血液疾病,而代謝疾病單獨存在的概率是全部可能性里最高的。

這時候,再用“年齡”屬性篩選出50歲以上的患者,代謝疾病的百分數飆升到了73%。

注:發現數據里,有很多患者年齡填了零,也可以一鍵清除他們,只留有效部分。

數據就觀察到這里。

機器學習出場了

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

如果要預測某個患者有沒有心臟衰竭,就從算法欄里拽出一個預測器 (Predictor) 。

然后把要預測的“心臟衰竭”,拖到預測器的“目標 (Target) ”里去。

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

這樣,預測器的右邊,便會產出一系列模型,每個模型的預測準確率都會顯示出來。

模型生成完畢之后,可以選擇一個成績最好的模型,打開來仔細查看:

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

這個準確率92.25%的方案,一共有8個步驟。

現在可以把這個模型導出為Python腳本,今后可以手動優化,也可以直接投入使用。

除此之外,還可以看到各個不同參數的權重:

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

其中,對預測心衰最有幫助的是一個叫“heart_ischemic”的特征。

意思是心臟缺血,常常是伴隨著心臟衰竭而生。

所以下一步,就把這個特征也扔進預測器的目標里。

這樣的話,再生成的模型就不依靠這個癥狀來預測了。

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

還有,可以把自己選中模型的預測結果,和Ground Truth對比觀察。

像上圖這樣直接拖進去,就會得出假陰假陽的情況。

選中這兩部分,把它們和“年齡“擺在一起,就知道AI在哪個年齡段的預測更容易出錯。

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

這個模型的錯誤率,幾乎是隨時間線性增長。

到這里,一個栗子就講完了。

可問題是,AutoML找出的模型一定是有效的么?

并不,如果預測成績看上去很迷,可能是因為屬性欄里的數據集,并不是有用的預測工具。

但沒關系,系統自帶數據集搜索工具datamart,輸入關鍵字,可以查找相關的數據集。

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

比如,輸入“貧困 (Poverty) ”,就能看到美國各個縣的人口數據。

有了這些數據,系統找出的貧困預測器,表現也會有所提升。

怎么做到的?

Northstar的英勇體現在三個角度,一是速度,二是生成模型的質量,三是交互能力。

團隊說,這是由系統的四個部分共同決定的 (第三部分高能) 。

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

第一部分叫Vizdom,就是前端,人類最直觀感受到的部分,像一個沒有邊界的畫板,可以在上面自在地發揮。

之所以自在,是因為背后有個強大的數據引擎:

第二部分叫IDEA,就是這個引擎。全稱“交互式數據探索加速器“,可以理解成樣本管理器

它把內存分成三份,一是結果緩存 (Result Cache) ,二是樣本存儲 (Sample Store) ,三是索引 (Indexes) 。

當用戶開始操作,IDEA就會從各種數據源吸取數據,推測性地 (Speculatively) 執行運算,然后把結果緩存下來,支援用戶后面可能下達的指令。

[[271915]]

同時,IDEA還會把所有傳入的數據,緩存到“樣本存儲”的位置。如果沒空間了,IDEA就開始更新緩存:用水塘抽樣 (Reservoir Sampling),給數據集生成一個代表性樣本 (Representative Sample) ,就算數據流有偏差也是后面再處理:

要避免數據流的偏差 (Bias) 帶來的影響,IDEA利用了許多數據庫都有的采樣算子,以及這些數據的隨機偏移 (Random Offsets) 。

IDEA還可能把水塘樣本分成幾個分層 (Stratified) 的子樣本,用來過度表示 (Overrepresent) 一個分布的尾端,或者用來創建專門的索引。

它所有的決定,都要根據用戶過往和當下的操作不斷優化

比如,當用戶把一個新屬性拖進畫布,系統就會分配更多資源到這個新屬性上,為用戶可能發出的請求提前做好準備。

另外,隨著計算的進行,IDEA還會把精確度越來越高的結果,不斷傳輸到前端,也包括這些結果的完整性和誤差分析。

這樣,即便用戶任意發揮,系統也能快速待命,不論數據大小,不論數據類型。

第三部分叫Alpine Meadow,重中之重

在IDEA準備好數據之后,就是它負責選出最適合的算法,最適合的超參數。

2013年,團隊曾經開發出MLbase:用一種簡單的聲明式方法 (Declarative Way) ,來說明ML任務是什么 (但不發出具體指令) ;還提供一個新的優化器,選出一個學習算法,并且能夠動態地適應當前的任務。

只不過,MLbase不是為了和人類交互而生的,調參常常要幾小時。

[[271916]]

所以,團隊在此基礎上一頓操作,獲得了快速有效的Alpine Meadow:

先是證明了,把基于規則的優化 (Rule-Based Optimization) 方法,和多臂老虎機、貝葉斯優化以及元學習,巧妙結合在一個系統里,能有效找到最好的ML模型。

并設計了一個自適應的選擇算法,通過對比訓練集和驗證集的誤差,早期就可以剪掉 (Prune) 一些不靠譜的pipeline。這在訓練實例的樣本越來越大的情況下,有助于達到更高的效率。

結果是,Alpine Meadow廣泛支持各類任務,多才多藝的程度,遠遠超過其他AutoML系統:

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

并且,它在從前沒見過的數據集上,有80%的情況超越了作為基線的專家系統:

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

下面看速度

綠色是Alpine Meadow找出第一個方案需要的時間。在成功的數據集數量相同的情況下,用時遠低于其他算法:

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

方案在數據集上的相對排名,依然明顯超過其他算法 (越低越好) :

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

然后,是DARPA比賽的分數 (已Normalized) :

不寫代碼,用圖形界面搞機器學習:MIT發布“全球最快AutoML”,刷新DARPA比賽成績

截至目前,它已經超越了DARPA D3M AutoML比賽上的全部對手。

雖然,Alpine Meadow單打獨斗也沒有問題。但在這個四部分組成的系統里,還有最后一個部分:

第四部分是QUDE,它可以監控用戶的每一個交互動作,對常見的錯誤和問題給出警告。

這些模塊合在一起,才是完整的Northstar。

美中不足,現在似乎還沒有個人用戶的入口。

“全MIT最聰明的人”

MIT和布朗大學組成的團隊,已經在NorthStar上面耗時四年。

[[271917]]

領隊是Tim Kraska副教授,來自MIT赫赫有名的CSAIL實驗室。

項目已經發射了許多篇論文,其中核心的Meadow Alpine論文,登上了SIGMOD ’19。

[[271918]]

論文一作名叫尚澤遠,也來自CSAIL,是Kraska的博士生。

少年的校園主頁,域名矚目:http://smartest.mit.edu/

下方還有一行傲嬌的說明:

如果想知道誰是MIT最聰明的人,請前往https://www.shangzeyuan.com/

Alpine Meadow論文傳送門:
http://sci-hub.tw/https://dl.acm.org/citation.cfm?id=3319863

NorthStar論文傳送門:
http://www.vldb.org/pvldb/vol11/p2150-kraska.pdf

 

 

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2011-07-28 17:40:04

MySQLMySQL Workb

2018-06-20 10:35:46

機器學習智鈾科技AutoML

2010-03-03 17:50:45

Android圖形界面

2011-10-11 13:22:55

FreeBSD

2009-05-26 15:22:14

Linux圖形備份

2016-10-28 08:57:56

Git圖形界面

2011-02-22 18:09:08

2011-09-06 15:10:20

Ubuntu圖形界面

2021-02-04 11:08:00

LinuxSSH工具

2021-11-08 08:14:50

Python圖形界面框架

2021-12-14 15:43:16

機器學習人工智能代碼

2022-09-25 00:07:18

Python圖形界面

2010-01-07 10:04:49

Ubuntu圖形

2012-04-27 15:21:45

JavaSwing

2012-04-24 09:40:42

SwingJava

2012-04-28 10:25:11

JavaSwing

2022-04-06 15:05:52

機器學習深度學習數據庫

2018-01-03 14:26:14

圖形界面操作系統計算機

2015-03-23 16:21:51

橫向擴展存儲系統全球最快華為

2010-03-03 08:49:36

Opera新版發布
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91就要激情 | 欧美一级电影免费 | 亚州无限乱码 | 一区二区三区视频播放 | 成人精品国产免费网站 | 日本小电影在线 | 欧美国产日韩一区二区三区 | 欧美888| 一区二区视屏 | 人人九九精 | 999精品在线 | 亚洲欧洲精品在线 | 亚洲一区成人 | 91丨九色丨国产在线 | 一区二区三区av夏目彩春 | 国产精品久久国产愉拍 | 中文字幕第49页 | 天天影视色综合 | 日韩a视频 | 国产精品亚洲综合 | 日本三级电影在线免费观看 | 久久小视频 | jlzzjlzz国产精品久久 | 成人免费淫片aa视频免费 | 欧美日韩一区二区视频在线观看 | 国产一区中文字幕 | 欧美日韩亚洲一区 | 免费中文字幕日韩欧美 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 欧美视频一级 | 成人做爰9片免费看网站 | 性欧美精品一区二区三区在线播放 | 亚洲黄色国产 | 亚洲性人人天天夜夜摸 | 人人cao | 国产传媒视频在线观看 | av一区二区在线观看 | 久久久久国产精品午夜一区 | 欧美日韩一区二区在线观看 | 久久久久久久电影 | 成人在线观看免费爱爱 |