人工智能產(chǎn)品化的關(guān)鍵是基礎(chǔ)架構(gòu)和數(shù)據(jù),而非算法
目前,人工智能經(jīng)歷著魔幻般的炒作。數(shù)據(jù)輸入作為亂七八糟的數(shù)字流的神經(jīng)網(wǎng)絡(luò)——或者黑箱,并且輸出的數(shù)據(jù)得到徹底轉(zhuǎn)化,就像魔術(shù)師從一個(gè)空帽子中變出一只兔子。
這在實(shí)驗(yàn)室是可能的,甚至是通過干凈、調(diào)試的數(shù)據(jù),在一臺個(gè)人開發(fā)機(jī)器上也是可能的。然而,已經(jīng)付出了很多很多努力,為了把機(jī)器學(xué)習(xí)算法擴(kuò)展到類似于多用戶服務(wù)的東西上——換句話說,有用的東西上。
人工智能的關(guān)注度正在直線飛升,其中不乏大量炒作,而實(shí)際情況是人工智能技術(shù)依然處于起步階段,并且難以實(shí)現(xiàn)產(chǎn)品化。從原型到產(chǎn)品,需要克服很多新挑戰(zhàn):比如訓(xùn)練數(shù)據(jù)從何而來?訓(xùn)練系統(tǒng)時(shí)人們?nèi)绾未鎯Α⒔M織、精煉并準(zhǔn)備數(shù)據(jù)?誰可以檢測系統(tǒng)?安全性怎么樣:如何管理和保護(hù)敏感信息?我的硬件需要多快才能傳遞結(jié)果?性能瓶頸和并發(fā)障礙在哪里?
魔術(shù)耍個(gè)不停。突然你發(fā)現(xiàn),人工智能代碼,你所謂的王冠,只是巨大復(fù)雜車機(jī)(buggy machine)上一個(gè)無足輕重的小齒輪。
Skymind 是一家為企業(yè)提供人工智能解決方案的初創(chuàng)公司,其聯(lián)合創(chuàng)始人和首席技術(shù)官 Adam Gibson 說:把人工智能產(chǎn)品化是一個(gè)不小的挑戰(zhàn),基礎(chǔ)架構(gòu)是最難以解決的問題之一。
Skymind CEO 和聯(lián)合創(chuàng)始人 Chris Nicholson 解釋說:部署人工智能是一個(gè)復(fù)雜過程,并且要分幾步走,這和水流進(jìn)一個(gè)個(gè)管道有些像。
原始數(shù)據(jù)就像液體,在流入產(chǎn)品的管道之前,需要數(shù)字化和聚集原始數(shù)據(jù)。接著,在使用 Hadoop 等被存儲之前,數(shù)據(jù)流需要通過工具 Apache Kafka 或者 Apache Storm 進(jìn)行處理。包括圖像、文本、聲音在內(nèi)的數(shù)據(jù)需要被提取、轉(zhuǎn)化繼而格式化以用于向量計(jì)算,并加載到用于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。
訓(xùn)練結(jié)束之后,將使用更多的數(shù)據(jù)檢測模型的推斷代碼以查看其性能和精確度。換句話說,對于一個(gè)新近訓(xùn)練的人工智能,你通過問題來查看其輸出是否和你的預(yù)期相一致。
在這一點(diǎn)上,少許的調(diào)整、篡改和額外訓(xùn)練可在正確的方向上推進(jìn)軟件。當(dāng)系統(tǒng)達(dá)到標(biāo)準(zhǔn)時(shí)——精確度足夠高,運(yùn)行快到可以滿足不耐煩之人的需求——它被插入到一個(gè)更大的框架之中,用戶從而可以直接或者通過 API 安全訪問系統(tǒng)。一個(gè)典型的例子是 Netflix 或 Amazon 基于用戶信息通過機(jī)器學(xué)習(xí)生成最佳推薦。
它并不止于此,而最后一步是擴(kuò)展。目前為止我們描述的系統(tǒng)被打包進(jìn)微服務(wù)(microservice)從而人工智能可以在多臺服務(wù)器上數(shù)千次地——如果不是數(shù)十萬次——被調(diào)試以解決需求問題。想象一個(gè)用于信用卡查腐的系統(tǒng),它要應(yīng)對數(shù)百個(gè)都姓 Purchas 的人。
Gibson 說:研究者并不知道或者關(guān)心這個(gè),他們只對更好的算法感興趣,而不是服務(wù)消費(fèi)者。
Nicholson 同意 Gibson 的觀點(diǎn),他說:研究人員對基礎(chǔ)架構(gòu)和擴(kuò)展并不感興趣。這里有一個(gè)很好的類比:想象一下數(shù)以千計(jì)的消費(fèi)者向同一個(gè)客服人員打電話——這就是研究人員的工作方式。他們就只有一個(gè)客服人員。但是想象一下如果通用電氣收到了數(shù)以千計(jì)的電話,其就不可能只安排一個(gè)客服人員。你需要無限次復(fù)制客服人員以盡可能地滿足服務(wù)需求。
呃,我只用云
類似創(chuàng)業(yè)公司這樣的小型公司可能會在他們的人工智能系統(tǒng)推斷階段大做文章,并且虛晃(「hand-wave」)其他階段。Gibson 告訴 The Register,「他們不會解決涉及所有基礎(chǔ)架構(gòu)和擴(kuò)展的數(shù)據(jù)量問題,因此,理想的做法是訴諸云端」,「但是,隨著公司變大,他們也需要擔(dān)心這些問題。」
Skymind 成立于 2014 年,研發(fā)了一種用 Java 編寫的深度學(xué)習(xí)框架 Deeplearning4j,能與 Hadoop 和 Spark 融合。
諸如谷歌云、微軟 Azure 以及亞馬遜云這樣的云平臺正競相將人工智能作為一種服務(wù)提供給大眾。他們?yōu)橛脩籼峁╊A(yù)訓(xùn)練模型,通過將不同工具(比如圖像識別或自然語言處理)弄在一塊,也為用戶提供一種生成更加定制化模型的辦法。
借助云使用人工智能模型既受約束也很昂貴。神經(jīng)網(wǎng)絡(luò)迭代學(xué)習(xí),也要求在多個(gè) GPU 上進(jìn)行密集訓(xùn)練。借助云來實(shí)現(xiàn)這些,花費(fèi)在 1 萬 5 千美元到 3 萬美元之間不等,Nicholson 介紹說。
「付不起錢的創(chuàng)業(yè)公司會使用從網(wǎng)上下載的預(yù)訓(xùn)練模型,進(jìn)行定制化——這是典型的做法——并把模型上傳到云。」
這么做的好處就是小型團(tuán)隊(duì)不用到處找懂機(jī)器學(xué)習(xí)的計(jì)算機(jī)科學(xué)家來將想法付諸現(xiàn)實(shí)。但是,也有不利的地方:受限于預(yù)先被打包的模型。事實(shí)上,這也是證明一家公司是否對人工智能持嚴(yán)肅態(tài)度的辦法。人工智能的炒作似乎不會減緩,吹噓這些方面也增加了上頭條或博得更多投資的機(jī)會。
「一家公司如果打造人工智能,要解決四個(gè)問題:人才、工具、數(shù)據(jù)和基礎(chǔ)架構(gòu)。」Nicholson 說,「需要有機(jī)器學(xué)習(xí)背景的人,計(jì)算機(jī)科學(xué)家以及黑客。要能解釋他們用的哪類算法,如果使用云,那么,他們可能沒有同樣多的數(shù)據(jù),也不需要考慮基礎(chǔ)架構(gòu)問題。」
「如果他們不談?wù)撍惴ê图夹g(shù)堆棧,那么,這就是個(gè)警示。你很難認(rèn)真對待這些人,因?yàn)樗麄兩抖几傻贸鰜怼K麄冊?logistic 回歸中使用 if-then 卻稱其為人工智能。」
人工智能不走大眾路線
從制藥貿(mào)易到政府部門,從不缺乏將人工智能應(yīng)用到數(shù)據(jù)中的商業(yè)興趣。不過,這并適合所有人,Nicholson 和 Gibson 說。深度學(xué)習(xí)需要將訓(xùn)練數(shù)據(jù)大量綁定以研發(fā)具有高性能的模型。
「事實(shí)是,幾乎所有創(chuàng)業(yè)公司并不掌握足夠數(shù)據(jù)。公司也必須現(xiàn)實(shí)點(diǎn)。人們不得不跨過幻想階段,尋找一個(gè)可以解決的真正問題。」
原文:https://www.theregister.co.uk/2017/03/31/ai_infrastructure/
【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】