AI時(shí)代的GitHub,這個(gè)陸奇看好的方向,終于有人做了
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
面向AI時(shí)代生存發(fā)展,什么最重要?
數(shù)據(jù)、數(shù)據(jù),還是數(shù)據(jù)。
特別是中小企業(yè)、轉(zhuǎn)型中的廣大傳統(tǒng)企業(yè),數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù),尋找并管理數(shù)據(jù),更是剛需中的剛需——就像互聯(lián)網(wǎng)開發(fā)時(shí)代里對(duì)代碼共享和管理的需求那樣。
所以如果有面向AI時(shí)代打造一個(gè)數(shù)據(jù)方向的GitHub,是不是契合剛需痛點(diǎn)?
這不,還真有AI創(chuàng)業(yè)團(tuán)隊(duì)這么做了。
而且看好的人中,還有個(gè)叫陸奇的big name.
GitHub for Data
出品者,格物鈦。
一家AI數(shù)據(jù)托管和數(shù)據(jù)協(xié)作SaaS提供商,創(chuàng)始團(tuán)隊(duì)也都是一線技術(shù)工程師,深諳當(dāng)前痛點(diǎn)所在。
一方面,AI數(shù)據(jù)準(zhǔn)備與工程任務(wù)所耗費(fèi)的時(shí)間占到了大多數(shù)AI項(xiàng)目的80%以上。在AI訓(xùn)練中,如果沒有足夠的高質(zhì)量訓(xùn)練和測(cè)試數(shù)據(jù)集,則很難訓(xùn)練出高質(zhì)量的AI模型。
因此,面對(duì)AI開發(fā)過(guò)程中的高額隱性成本,提供高質(zhì)量、場(chǎng)景化的真值數(shù)據(jù),已經(jīng)成為AI產(chǎn)業(yè)鏈的核心訴求之一。

另一方面,人工智能依賴大量的數(shù)據(jù)作為“思考”和“決策”的基礎(chǔ)。以往企業(yè)對(duì)數(shù)據(jù)開放的態(tài)度普遍較為保守敏感,然而伴隨著各類AI應(yīng)用場(chǎng)景落地的技術(shù)難點(diǎn)逐漸浮出水面,以無(wú)人駕駛領(lǐng)域?yàn)槔S多駕駛場(chǎng)景具有稀缺性,僅憑一家之力構(gòu)建包含所有的交通場(chǎng)景的數(shù)據(jù)集將消耗巨額的數(shù)據(jù)采集成本,并且很難在短時(shí)間內(nèi)一步到位。
于是格物鈦的目標(biāo),就是希望可以加速打破人為壁壘,讓更多優(yōu)質(zhì)、龐大數(shù)據(jù)用開源共享的方式,實(shí)現(xiàn)合作共贏。

就像GitHub在代碼領(lǐng)域發(fā)揮的基礎(chǔ)設(shè)施作用一樣,AI數(shù)據(jù)領(lǐng)域,現(xiàn)在緊缺這樣的基礎(chǔ)設(shè)施。
而且隨著AI落地深入,另一個(gè)現(xiàn)狀和事實(shí)愈加清晰明確:
AI落地的現(xiàn)實(shí)世界中,只有一小部分機(jī)器學(xué)習(xí)系統(tǒng)由機(jī)器學(xué)習(xí)代碼組成,但其所需的周邊配套基礎(chǔ)設(shè)施,龐大而復(fù)雜。
其中,數(shù)據(jù)、數(shù)據(jù)集,就是最關(guān)鍵的一環(huán)。如果進(jìn)一步聚焦于國(guó)內(nèi),還會(huì)發(fā)現(xiàn)適配AI項(xiàng)目落地的真值數(shù)據(jù),更是稀缺。
有統(tǒng)計(jì)顯示,如今國(guó)內(nèi)有近60萬(wàn)AI開發(fā)者,但面臨的現(xiàn)狀是:
- 開源數(shù)據(jù)集普遍海外化,匹配性有限;
- 下載解析難度大,效率低;
- 數(shù)據(jù)參差不齊,質(zhì)量難保證;
- 最核心的是針對(duì)中國(guó)本土化的數(shù)據(jù)匱乏。
這也進(jìn)一步造成70%以上企業(yè),數(shù)據(jù)共享難、數(shù)據(jù)版本管理混亂、數(shù)據(jù)可視化標(biāo)簽轉(zhuǎn)換難,缺乏非結(jié)構(gòu)化數(shù)據(jù)專業(yè)管理的共享協(xié)作平臺(tái)。
所以擺著格物鈦眼前的,只剩下一個(gè)問(wèn)題:
How?

尋集令
顧名思義,尋找數(shù)據(jù)集。
分兩步走。
第一步,跟AI業(yè)內(nèi)先鋒公司合作。
共同打造集合自動(dòng)駕駛、互聯(lián)網(wǎng)泛娛樂(lè)、新零售、智慧城市和在線教育等AI商業(yè)落地最迫切的AI公開數(shù)據(jù)集生態(tài)聯(lián)盟。
俗話說(shuō)就是開個(gè)頭、打個(gè)樣,看到價(jià)值,就會(huì)有更多企業(yè)和組織加入。
在尋集令發(fā)布會(huì)上,元戎啟行、新石器、速騰聚創(chuàng)、覺非、愛馳汽車,酷家樂(lè)等等都“站”臺(tái)支持。

格物鈦方面稱,星星之火可以燎原,希望從尋集令第一槍開始,打造中國(guó)最具規(guī)模化的非結(jié)構(gòu)化數(shù)據(jù)集平臺(tái)。
類型上,全面覆蓋圖像、視頻、語(yǔ)音和文本類型。
資源上,兼具公開數(shù)據(jù)集以及AI頭部企業(yè)數(shù)據(jù)集資源。
領(lǐng)域上,則從商業(yè)落地最緊迫的自動(dòng)駕駛、互聯(lián)網(wǎng)泛娛樂(lè)、智慧工業(yè)、新零售、線上教育和直播等開始。
此外,希望這個(gè)數(shù)據(jù)集平臺(tái),可以成為GitHub一樣受開發(fā)者歡迎的社區(qū),并且提供更多極致的數(shù)據(jù)集管理體驗(yàn),包括安全等等題中之義的要求。
實(shí)際上,雖然國(guó)內(nèi)一直缺乏這樣的數(shù)據(jù)集開源平臺(tái),但并不意味著業(yè)內(nèi)沒有嘗試。
之前創(chuàng)新工場(chǎng)聯(lián)合國(guó)內(nèi)頭部AI公司發(fā)起AI Challenger大賽,百度、騰訊、華為、字節(jié)跳動(dòng)等公司也都有數(shù)據(jù)集為核心資源的挑戰(zhàn)賽。
只是始終,缺乏一個(gè)“全職”展開這件事的人。

而數(shù)據(jù)集之重要,AI從業(yè)者都應(yīng)該很清楚。
比如假設(shè)沒有ImageNet,那這波AI復(fù)興應(yīng)該還不會(huì)如此狂飆突進(jìn),是李飛飛李佳等華人科學(xué)家在數(shù)據(jù)集上的努力,加速催化了浪潮復(fù)興。
另外,數(shù)據(jù)集也能推動(dòng)產(chǎn)學(xué)研更加緊密地合作,資源如果能更方便被利用,或許就會(huì)有更多力量加入其中,也就更有機(jī)會(huì)幫助實(shí)現(xiàn)該領(lǐng)域算法的提升和優(yōu)化。
說(shuō)白了,公開共享數(shù)據(jù)集,就像是發(fā)起了一場(chǎng)打擂,產(chǎn)學(xué)研領(lǐng)域的各方高手,既是自我檢測(cè)算法,也能不斷讓數(shù)據(jù)集所在場(chǎng)景,得到更高更強(qiáng)的推進(jìn)。
所以從這個(gè)角度,或許也不難想見,為啥能得到陸奇的支持。
在奇績(jī)創(chuàng)壇的Demo Day上,這個(gè)項(xiàng)目就被重點(diǎn)介紹過(guò),而且陸奇還親自“站”臺(tái)為尋集令作了致辭。
總而言之,好事一件,且終于有人做了。
誰(shuí)做的?
最后也介紹下格物鈦背后的創(chuàng)始團(tuán)隊(duì),核心成員都是技術(shù)出身。
創(chuàng)始人及CEO崔運(yùn)凱,Uber無(wú)人駕駛團(tuán)隊(duì)早期員工,長(zhǎng)期從事人工智能研究和產(chǎn)品化, 經(jīng)歷Uber無(wú)人駕駛從50到1500人的成長(zhǎng)。Uber無(wú)人駕駛部門最年輕的Tech Lead,第一個(gè)華人Tech Lead。
其他兩位聯(lián)合創(chuàng)始人,陳麒任,Snapchat早期員工,聊天系統(tǒng)、游戲系統(tǒng)的核心開發(fā)者和技術(shù)負(fù)責(zé)人。有多年分布式系統(tǒng)軟件開發(fā)經(jīng)驗(yàn)。主導(dǎo)開發(fā)snap游戲平臺(tái),是snap的未來(lái)重要盈利方式。
王廣宇,阿里巴巴本地生活服務(wù)公司(餓了么),高級(jí)產(chǎn)品專家。攜程度假事業(yè)部當(dāng)?shù)叵驅(qū)脚_(tái)產(chǎn)品負(fù)責(zé)人,完成平臺(tái)從0到1,從1到100的搭建,實(shí)現(xiàn)了平臺(tái)的年3倍增長(zhǎng),為公司帶來(lái)過(guò)億的營(yíng)收。