深度學(xué)習(xí)也能不玩大數(shù)據(jù)?小企業(yè)訓(xùn)練大模型有新解
據(jù)外媒報道,AI領(lǐng)域?qū)<覅嵌鬟_向IEEE表示深度學(xué)習(xí)未來的發(fā)展路徑應(yīng)當從用大數(shù)據(jù)訓(xùn)練模型向用優(yōu)質(zhì)數(shù)據(jù)轉(zhuǎn)變,為無法獲得大數(shù)據(jù)集的產(chǎn)業(yè)提供應(yīng)用深度學(xué)習(xí)模型的機會。吳恩達曾任斯坦福人工智能實驗室主任,此前主導(dǎo)谷歌的Google Brain項目。
吳恩達認為,對深度模型的訓(xùn)練應(yīng)當從調(diào)整代碼轉(zhuǎn)向調(diào)整數(shù)據(jù),通過調(diào)整影響訓(xùn)練結(jié)果的噪聲數(shù)據(jù)(無意義數(shù)據(jù)),僅用少量優(yōu)質(zhì)的數(shù)據(jù)集即可完成模型更新,相較調(diào)整代碼或直接提供海量數(shù)據(jù)的方式,這種方法更具針對性。
吳恩達2017年成立的Landing AI公司目前在為制造業(yè)產(chǎn)品檢測方面提供計算機視覺工具,該工具能夠?qū)υ肼晹?shù)據(jù)進行快速標記,使客戶通過更改數(shù)據(jù)標簽自主完成模型的更新,不需要再對模型本身進行調(diào)整。
一、深度學(xué)習(xí)潛力強大,大數(shù)據(jù)訓(xùn)練集成主流
人工智能的目標是讓機器像人類一樣“思考”和“行動”,機器學(xué)習(xí)是是實現(xiàn)這一愿景的重要方法,深度學(xué)習(xí)則是機器學(xué)習(xí)的重要分支,隨著2012年Hinton教授用機器學(xué)習(xí)方法在ImageNet圖像識別比賽中一舉奪魁,深度學(xué)習(xí)逐漸受到廣泛關(guān)注,在許多領(lǐng)域替代了傳統(tǒng)的機器學(xué)習(xí)方法,成為人工智能中的熱門研究領(lǐng)域。
過去十年里,深度學(xué)習(xí)實現(xiàn)了飛速發(fā)展,深度學(xué)習(xí)模型向著越來越大的方向發(fā)展,以O(shè)penAI的自然語言處理模型GPT系列模型為例,2018年,GPT-1的參數(shù)規(guī)模突破1億,到2020年GPT-3問世時時,參數(shù)規(guī)模已經(jīng)突破百億,超大模型的不斷涌現(xiàn),顯示了深度學(xué)習(xí)的發(fā)展?jié)摿Α?/p>
但是,吳恩達認為,雖然目前深度學(xué)習(xí)方法在許多面向消費者的公司里實現(xiàn)了廣泛應(yīng)用,但是這些公司往往擁有龐大的用戶基礎(chǔ),能獲得大型數(shù)據(jù)集進行模型訓(xùn)練,但對于許多不能獲得大型數(shù)據(jù)集的行業(yè),則需要將重點從提供大量數(shù)據(jù)轉(zhuǎn)向提供優(yōu)質(zhì)數(shù)據(jù)。
二、從代碼轉(zhuǎn)向數(shù)據(jù),用少量數(shù)據(jù)訓(xùn)練優(yōu)質(zhì)模型
過去十年中,訓(xùn)練深度學(xué)習(xí)模型的主流方法是下載數(shù)據(jù)集,然后專注于改進代碼,但如果一個機器學(xué)習(xí)模型對于大多數(shù)數(shù)據(jù)集來說是正常的,僅在其中一個數(shù)據(jù)集中出現(xiàn)偏差,為了適應(yīng)這個數(shù)據(jù)集改變整個模型架構(gòu)的方法是低效的。
還有一種方法是從數(shù)據(jù)下手,這類方法被稱為“Data-centric AI”(以數(shù)據(jù)為中心的人工智能),一般的方法是通過補充更多數(shù)據(jù)提升模型的準確性。對此,吳恩達表示,如果試圖為所有情況收集更多數(shù)據(jù),這個工作量將會很大,因此他致力開發(fā)出標記噪聲數(shù)據(jù)(無意義數(shù)據(jù))的工具,提供一種針對性的方法,為模型訓(xùn)練提供少量但優(yōu)質(zhì)的數(shù)據(jù)。
吳恩達說他一般采用的方法是數(shù)據(jù)增強或提高數(shù)據(jù)標簽的一致性等,比如對一個存有一萬張圖片的數(shù)據(jù)集,其中30張同類圖片有不同的數(shù)據(jù)標記時,他希望能夠構(gòu)建識別標記不一致的圖片的工具,使研究人員能快速對其重新標記,而不是再搜集海量數(shù)據(jù)進行模型訓(xùn)練。
三、Landing AI提供數(shù)據(jù)標記工具,用戶自主實現(xiàn)模型更新
2017年,吳恩達成立了Landing AI公司,為制造業(yè)公司提供產(chǎn)品檢測的計算機視覺工具,為生產(chǎn)商的產(chǎn)品進行視覺檢測。吳恩達在該公司的首頁介紹道,用人眼發(fā)現(xiàn)電路板劃痕超出了人眼觀測能力的極限,但用AI進行識別的準確率就高得多。
Landing AI重點在于讓客戶能夠自己訓(xùn)練機器學(xué)習(xí)模型,該公司主要為其提供相關(guān)工具,能在數(shù)據(jù)出現(xiàn)異常時進行數(shù)據(jù)標記,讓公司自己就能實現(xiàn)模型的快速更新。
? ?
吳恩達表示,這不僅僅是制造業(yè)的問題,以醫(yī)療健康領(lǐng)域為例,每家醫(yī)院的電子版健康記錄都有自己的格式,期望每家醫(yī)院的程序員開發(fā)不同的模型是不現(xiàn)實的,唯一的方法就是為客戶提供工具,讓他們能夠構(gòu)建適配的模型,Landing AI目前在計算機視覺領(lǐng)域推廣這樣的工具,其他AI領(lǐng)域業(yè)需要做這樣的工作。
結(jié)語:深度學(xué)習(xí)方法或轉(zhuǎn)向,數(shù)據(jù)求精不求多
長期以來,深度學(xué)習(xí)模型的更新與優(yōu)化主要依賴對模型的調(diào)整,或直接補充更多數(shù)據(jù),反復(fù)訓(xùn)練模型,提升模型的準確度。吳恩達則更推薦對少量噪聲數(shù)據(jù)進行數(shù)據(jù)標記和更新,實現(xiàn)更有針對性的模型優(yōu)化。
此前,吳恩達在推特上發(fā)起了“Data-centric AI”競賽,使更多從業(yè)人員注意到通過數(shù)據(jù)進行模型優(yōu)化的方法,越來越多的研究人員使用數(shù)據(jù)增強(data augmentation)、合成數(shù)據(jù)(synthetic data)等方法,實現(xiàn)更高效的模型訓(xùn)練。未來,數(shù)據(jù)優(yōu)化是否會成為實現(xiàn)模型迭代的主流方法,值得期待。