AI不適合開源?MongoDB副總裁:開源代碼對人工智能不適用
?是時候聊聊AI開源的問題了。
顯然,這是搞開發(fā)的人不得不面對的問題。基本從2006年開始,開不開源就已經(jīng)成為了頭等問題之一。
Matt Asay在MongoDB負責市場營銷這一塊。在此之前,他曾是亞馬遜網(wǎng)絡服務的負責人和Adobe的開發(fā)者生態(tài)系統(tǒng)負責人。
而在加入Adobe之前,Asay在開源公司擔任過一系列職務。MongoDB的業(yè)務發(fā)展、營銷和社區(qū)副總裁、實時分析公司Nodeable(后來被Appcelerator收購)的業(yè)務發(fā)展副總裁、移動HTML5初創(chuàng)公司Strobe(后來被Facebook收購)的業(yè)務發(fā)展副總裁和臨時CEO,以及Ubuntu Linux公司Canonical的COO和內(nèi)容管理初創(chuàng)公司Alfresco的美洲區(qū)負責人。
最終,Asay成為了開放源碼倡議(OSI)的榮譽董事,并獲得了斯坦福大學的法學博士學位。?
之前,Matt Asay曾指責谷歌和雅虎兩家公司在開源代碼上有所保留,然后他被罵了。
現(xiàn)在想來,是有道理的。
Tim O'Reilly表示,在開源的云時代,開發(fā)者分享代碼的動機,是讓別人跑自己的程序,從而提供一份源代碼。而這件事的必要性已經(jīng)慢慢消失了。
Reilly繼續(xù)指出,不僅沒必要,而且就最大的App來看,這也不再可能了。
在過去的十年里,這種分享的不可能推翻了原先開源的定義。如今,新的定義正在影響我們思考人工智能的方式。
正像Mike Loukides指出的那樣,在AI方面的合作從未像現(xiàn)在這么重要,也從未像現(xiàn)在這么困難。
就像2006年的云計算一樣,在人工智能領域做最有趣的工作的公司可能會努力用傳統(tǒng)的方式開源。
但即便他們開源的方式是傳統(tǒng)的,也并不意味著他們不能用更有意義的方式開放。
開放基礎設施
Loukides認為:「雖然現(xiàn)在很多公司都說自己在搞AI,但真正推動這個行業(yè)向前發(fā)展的只有三家公司——Meta、OpenAI和谷歌。」
他們仨有著一個共同點:都擁有可以大規(guī)模運行大型模型的能力。這種能力背后,需要強大的基礎設施和技術手段,而這往往是很多個人和企業(yè)不具備的。
的確,你可以從Meta那里下載OPT-175B的源代碼,但你手頭的硬件卻無法對其進行訓練。甚至是對于大學或其他的研究機構來說,OPT-175B都過于龐大了。
另一方面,即便是有足夠計算資源的谷歌和OpenAI,也無法輕易復刻OPT-175B。
原因也很簡單:OPT-175B與Meta自己的基礎設施(包括定制硬件)聯(lián)系過于緊密,很難被移植到其他地方。
也就是說,Meta并沒有想要隱瞞有關OPT-175B的什么,而是建造一個差不多基礎設施真的很難。即便是對于那些有資金和技術的人來說,最終搞出來的也會是個不大一樣的版本。
而這正是雅虎的Jeremy Zawodny和谷歌的Chris DiBona在2006年的OSCON上提出的觀點。
但話又說回來,如果你不了解機器內(nèi)部的科學原理,就很難去相信一個AI。
所以,我們需要去尋找某種方法,從而讓基礎設施能被開放使用。
Loukides認為,應該向外部研究人員和早期使用者提供免費訪問。不過,并不是說給他們一個可以訪問Meta,谷歌或OpenAI的數(shù)據(jù)中心的萬能鑰匙,而是通過一個公共API。
這可能并不是大多數(shù)人所期待的「開源」,但其實還是可以接受的。
換一種方式看待開源
現(xiàn)在,Matt Asay曾經(jīng)對谷歌和雅虎指責如今沒什么意義了。
自從2006年以來,谷歌在滿足戰(zhàn)略需要的前提下,打包并開源了關鍵基礎設施。
在Matt Asay看來,TensorFlow 是開源的入口,Kubernetes是開源的出口。這些開源的機器學習行業(yè)標準有望提升Google Cloud的工作負載,或者確保谷歌云之間的可移植性,從而為Google Cloud贏得更多的工作負載。
想出這些的人很聰明,但是在Pollyanna 的意義上,它并不是開源的。
不是只有谷歌這樣。它只是在開源上做得比其他公司好。開源本質(zhì)上是自私的,公司和個人總是會開放有利于自己或客戶的代碼。
一直如此,而且永遠如此。
Loukides認為應該有意義地開放AI(盡管三大AI巨頭與其他公司之間存在差異),但他指的開源并不是我們一般意義上理解的開源。為什么呢?
原因在于,雖然傳統(tǒng)的開源很不錯,但無論是對于軟件的創(chuàng)建者和消費者,它都從未成功解決DiBona和Zawodny于2006年在OSCON上提出的云開源難題。
現(xiàn)在已經(jīng)過去了十幾年了,我們依然沒有離答案更近一步。
話又說回來,我們確實近了一點。
Matt Asay認為,我們需要以一種新的方式來看待開源。
他與Loukides的想法很接近:關鍵在于為研究人員提供足夠的訪問權限,使他們能夠重現(xiàn)一個特定的AI模型是如何成功或失敗的。
「他們并不需要完全訪問所有的代碼和基礎設施來運行這些模型」。正如他所言,只有在開發(fā)人員可以在筆記本電腦上運行開源程序、進行衍生創(chuàng)作的前提下,完全訪問該代碼才是有意義的。
鑒于如今谷歌或微軟運行代碼的規(guī)模和獨特的復雜性,這已經(jīng)毫無意義了——我們不可能完全訪問大規(guī)模的云代碼。
我們需要明白:開源并不是用于觀察開源世界的一個鏡頭。而且考慮到我們?nèi)缃袼幍脑茣r代,開源也用得越來越少。
無論是作為公司還是作為個人,我們的目標應該是以有利于客戶和第三方開發(fā)人員的方式開放對軟件的訪問,讓軟件更易理解,而不是試圖將幾十年前的開源概念改造成云。它不適用于開源,就像它不適用于AI一樣。
是時候換個思路了。?