成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

像Git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

新聞 人工智能
國外,一位名叫Simon Lousky的程序員小哥終于不能忍了,開發(fā)出了一套用于機器學(xué)習(xí)的數(shù)據(jù)版本控制工具 (Data Version Control,DVC)。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

搞機器學(xué)習(xí)的人,很多都飽受數(shù)據(jù)管理的折磨。

要么是數(shù)據(jù)集老舊,需要手工修訂標(biāo)注。

要么是同一個數(shù)據(jù)集有很多被別人調(diào)整過的版本,無從下手。

或者,干脆沒有合適數(shù)據(jù)集,需要自己建立。

[[377448]]

國外,一位名叫Simon Lousky的程序員小哥終于不能忍了,開發(fā)出了一套用于機器學(xué)習(xí)的數(shù)據(jù)版本控制工具 (Data Version Control,DVC)。

一鍵調(diào)用數(shù)據(jù)集、一鍵查看編輯歷史……最重要的是,在DVC工具背后,有一個GitHub一樣的數(shù)據(jù)托管社區(qū)

“盤活”數(shù)據(jù)集

Simon Lousky在學(xué)生時代做項目時,就已經(jīng)感受到了機器學(xué)習(xí)數(shù)據(jù)集管理不便的痛點。

當(dāng)時,他的模型需要一個植物和花朵的數(shù)據(jù)進行訓(xùn)練,而開源數(shù)據(jù)集無論如何也得不到合理的結(jié)果。

于是他自己花了幾個小時的時間,一一修正了數(shù)據(jù)集中大量過時、不合理的標(biāo)注,之后訓(xùn)練結(jié)果讓人十分滿意。

[[377449]]

除了這個項目,他之后又進行過很多數(shù)據(jù)集的修正、增補、創(chuàng)建工作,他把這些費時費力的工序稱為“數(shù)據(jù)集的調(diào)試試錯”,并且開始有意記錄操作歷史。

他逐漸發(fā)現(xiàn),自己的項目中,數(shù)據(jù)管理總是一塌糊涂,而依靠GitHub托管的代碼,卻一直井井有條。

那為什么不做一個類似GitHub、專門服務(wù)數(shù)據(jù)管理的工具呢?

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

DVC就這樣誕生了。

這是一個預(yù)裝的工具庫,實現(xiàn)功能包括對數(shù)據(jù)集的調(diào)用、歷史操作信息的查看等等功能。

它的出現(xiàn),意味著之前,研究人員在本地“死”的數(shù)據(jù)集上訓(xùn)練模型的方式徹底改變。

你可以將項目鏈接到在線托管的數(shù)據(jù)集(或任何文件),建立實時、準(zhǔn)確的聯(lián)系。數(shù)據(jù)集的任何更新變動,都能及時獲知,方便項目的開展。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

比如,現(xiàn)在有一個Repository A,這是一個“活”數(shù)據(jù)集,其中元數(shù)據(jù)文件,指向存儲在專用服務(wù)器的真實大文件。

用戶可以將數(shù)據(jù)集文件組織到目錄中,并添加帶有utils函數(shù)的代碼文件,以此來方便調(diào)用。

此外,還有一個Repository B,這是對應(yīng)機器學(xué)習(xí)項目,項目代碼中,包含使用DVC導(dǎo)入數(shù)據(jù)集的指令。

只要創(chuàng)建一個數(shù)據(jù)注冊表,就能建立A和B之間的聯(lián)系:

  1. mkdir my-dataset && cd my-dataset 
  2. git init 
  3. dvc init 

此時,數(shù)據(jù)集目錄會是這樣:

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

需要查看數(shù)據(jù)集相關(guān)信息時,輸入指令:

  1. dvc add annotations 
  2. dvc add images 
  3. git add . && git commit -m “Starting to manage my dataset” 

數(shù)據(jù)集的預(yù)覽會保存到一個目錄里,這個目錄也會被DVC跟蹤。

然后用戶只需要把代碼和數(shù)據(jù)推送到托管倉庫,這樣就隨時隨地訪問它,并與其他人分享。

當(dāng)然,DVC要發(fā)揮作用,自然少不了背后的DAGsHub

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

DAGsHub就是一個GitHub的數(shù)據(jù)管理版本,由三部分組成,git倉庫、DVC、和機器學(xué)習(xí)流程平臺mlflow。

用戶可以提交自己的項目,DAGsHub會自動掃描提交,并提取有用的信息,如實驗參數(shù),數(shù)據(jù)文件和模型的鏈接,并將它們結(jié)合到一個簡單的界面。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

DAGsHub可以瀏覽和比較代碼、數(shù)據(jù)、模型和實驗,而且不需要下載任何東西。

此外,還能生成可視化數(shù)據(jù)管道、數(shù)據(jù)操作歷史,并記錄模型性能,自動且美觀。

如何在機器學(xué)習(xí)項目中使用“活”數(shù)據(jù)集

要使用DAGsHub,只需要注冊登錄。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

通過以下指令安裝DVC:

  1. pip3 install dvc 

在DAGsHub上找到一個數(shù)據(jù)集,如何在自己的模型中使用它呢?

首先,要從托管的數(shù)據(jù)集中導(dǎo)入一個目錄,并把它當(dāng)作原始文件:

  1. mkdir -p data/raw 
  2. dvc import -o data/raw/images \ 
  3. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  4. data/images 
  5. dvc import -o data/raw/annotations \ 
  6. https://dagshub.com/Simon/baby-yoda-segmentation-dataset \ 
  7. data/annotations 

接著,圖片和注釋就會下載到你自己的項目中,并保留其中歷史信息的信息。

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

當(dāng)你想要知道數(shù)據(jù)集的變更歷史時,只需運行命令:

dvc update

就能將可視化結(jié)果返回默認目錄保存:

像git一樣用AI數(shù)據(jù)!免費托管工具上線,用「活」數(shù)據(jù)集訓(xùn)練

是不是很方便?

對了,無論是DVC,還是DAGsHub,都是開源且免費的,趕快來試試吧

傳送門:

DVC教程:https://dagshub.com/docs/experiment-tutorial/2-data-versioning/
DAGsHub主頁:https://dagshub.com/

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-11-20 09:10:12

開源技術(shù) 數(shù)據(jù)

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務(wù)價值

2018-09-21 11:06:10

2025-06-03 14:16:40

編程AI生成

2013-07-26 10:15:29

云計算大數(shù)據(jù)Hadoop

2017-11-06 14:18:03

2022-02-24 13:59:59

AI智能體研究

2020-09-30 17:12:09

人工智能技術(shù)數(shù)據(jù)

2021-12-28 11:23:36

SQLServerExcel數(shù)據(jù)分析

2023-04-05 14:19:07

FlinkRedisNoSQL

2025-01-17 13:53:11

AI大模型檢測工具

2017-04-26 14:02:18

大數(shù)據(jù)數(shù)據(jù)分析Excel

2017-06-23 08:18:17

2019-04-11 18:00:40

數(shù)據(jù)數(shù)據(jù)科學(xué)項目

2022-08-03 08:52:35

Bytebase開源

2013-12-17 09:02:03

Python調(diào)試

2013-12-31 09:19:23

Python調(diào)試

2022-12-21 15:56:23

代碼文檔工具

2023-05-23 13:59:41

RustPython程序

2022-08-26 08:17:32

Sidekick開源
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美a区 | 欧美激情黄色 | 国产91久久久久久 | 毛片免费看 | 午夜在线影院 | 精品三区 | 在线视频一区二区 | 在线一区 | 91精品观看 | 农村黄性色生活片 | 黄频视频 | 91久久久久 | 久久成人免费视频 | 日韩三级| 国产国产精品 | 免费一级做a爰片久久毛片潮喷 | 久草视频观看 | 国产精品视频网站 | 天天爱天天操 | 免费在线观看黄色av | 99视频免费播放 | heyzo在线| 亚洲三区在线观看 | 欧美日韩在线一区二区 | 欧美日韩精品一区 | 中文字幕日韩一区 | 日韩精品在线观看一区二区三区 | 久久久久久久久精 | 在线亚洲电影 | 久久av一区二区 | 精品日韩在线 | 日本电影网站 | 一区二区三区在线播放 | 国产在线一区二区 | 日韩综合在线 | 日韩在线不卡 | 免费视频一区二区三区在线观看 | 国产99精品 | 久久久久久久久久久久久久国产 | 欧美一区二区大片 | 中文字幕一区二区三区四区 |