斯坦福教授曼寧:AI巨模型訓練成本動輒幾十萬,窮博士和小公司用不起了
Glean 是一家從事搜索業(yè)務的創(chuàng)業(yè)公司,一直很想使用最新的 AI 算法來改進公司的產(chǎn)品。
Glean 提供 Gmail、Slack 和 Salesforce 等應用程序進行搜索的工具,用于解析語言的新 AI 技術(shù),可以幫助公司的客戶更快地發(fā)掘正確的文件或?qū)υ挕?/p>
但是訓練這樣一個尖端的人工智能算法需要花費數(shù)百萬美元。因此 Glean 使用更小、能力更弱的 AI 模型,這些模型無法從文本中提取出盡可能多的含義。
Glean 對此也是頗為無奈。
「對于預算較少的小企業(yè)來說,很難獲得與谷歌或亞馬遜等公司相同精度的結(jié)果,對于這些小公司而言,要想搞出最強大的人工智能模型是不可能的。」公司表示。
過去十年中,AI 產(chǎn)生了一系列令人興奮的突破,目前已經(jīng)可以在復雜的游戲中擊敗人類,可以在特定條件下駕駛汽車穿過城市街道,響應口頭命令,并根據(jù)簡短的提示編寫連貫的文本。
一方面,這些進步在很大程度上是因為算法有了更多的文本作為訓練數(shù)據(jù)。另一方面,為了消化這些數(shù)據(jù),使用了更多的芯片。
這是要花錢的。
以 OpenAI 的語言模型 GPT-3 為例,這是一個大型的、數(shù)學模擬的神經(jīng)網(wǎng)絡,從網(wǎng)絡上抓取大量文本進行訓練后,GPT-3 可以以驚人的連貫性預測哪些詞應該填在其他詞前后,生成流暢的文本,而且是開箱即用的。
GPT-3 在回答問題、總結(jié)文本和糾正語法錯誤等任務上明顯優(yōu)于以前的 AI 模型。與上一代的 GPT-2 相比,性能實現(xiàn)了 1000 倍的增長。不過,據(jù)估計,訓練 GPT-3 的成本接近 500 萬美元。
「如果 GPT-3 既方便又便宜,會大大增強我們的搜索引擎,那會非常非常強大。」
對于希望擁抱 AI 轉(zhuǎn)型傳統(tǒng)企業(yè)來說,訓練高級 AI 的成本不斷上升也同樣是一個問題。
Dan McCreary 在健康 IT 公司 Optum 領(lǐng)導一個團隊,該團隊使用語言模型來分析通話記錄,識別哪些患者風險較高,哪些應該及早推薦轉(zhuǎn)診。
他說,現(xiàn)在即使訓練一個 GPT-3 大小千分之一的語言模型,也會很快耗盡團隊的預算。他們需要的模型針對特定任務進行訓練,成本可能超過 50000 美元,這筆錢要付給云計算公司,作為租用其計算機和程序的租金。
McCreary 表示,云計算供應商沒有理由降低成本。現(xiàn)在他正在考慮自己購買加速人工智能訓練的專用芯片。
現(xiàn)在,許多學術(shù)實驗室和創(chuàng)業(yè)公司可以直接下載并使用最新的理念和技術(shù)。比如在圖像處理方面取得突破的算法來自學術(shù)實驗室,使用現(xiàn)成的硬件和公開共享的數(shù)據(jù)集開發(fā)。
然而,隨著時間的推移,越來越清楚的一點是,AI 的進步與底層計算機性能的指數(shù)級增長息息相關(guān)。
有了算力,才有創(chuàng)新。沒有錢,就沒有算力。
現(xiàn)在,一些大企業(yè)進一步把這個趨勢推得越來越高。近日,微軟表示,它和英偉達合作,構(gòu)建了一個比 GPT-3 大兩倍的語言模型。
MLCommons 是一個跟蹤 AI 專有芯片性能變化的機構(gòu)。該機構(gòu)的執(zhí)行董事大衛(wèi)·坎特 (David Kanter) 表示:「未來訓練 AI 的成本絕對會繼續(xù)上升。」
Mosaic ML 的技術(shù)可以幫助大公司將模型提升到一個新的性能水平,也可以幫助沒有深厚 AI 專業(yè)知識、也沒那么有錢的小公司利用 AI 技術(shù)。
利用最新技術(shù)的成本不斷上升,可能會將創(chuàng)新留給最大的公司和租賃工具和算力的公司,從而減緩創(chuàng)新的步伐。
「我認為這種情況確實會阻礙創(chuàng)新。」專門研究人工智能和語言的斯坦福大學教授克里斯·曼寧說。
「當只有少數(shù)幾個地方才能研究這些大模型的內(nèi)部結(jié)構(gòu)時,出現(xiàn)創(chuàng)造性新成果的幾率一定會大大降低。」
曼寧說,就在十年前,他的實驗室有足夠的計算資源來探索任何項目。「一個努力工作的博士生就可能會做出最先進的工作,而現(xiàn)在,這個窗口已經(jīng)關(guān)閉了。」
與此同時,不斷上漲的算力成本,促使人們尋找更有效的 AI 算法訓練方式。目前已經(jīng)有數(shù)十家公司開發(fā)用于訓練和運行 AI 程序的專用計算機芯片。
所以,特斯拉設計自己的車載芯片,也許只是為了訓練自動駕駛的 AI 模型。
Mosaic ML 是一家源自 MIT 的初創(chuàng)公司,主要開發(fā)提高機器學習訓練效率的軟件和技術(shù)。
一種技術(shù)是對神經(jīng)網(wǎng)絡進行「修剪」,消除網(wǎng)絡結(jié)構(gòu)中的低效率部分,創(chuàng)建一個功能類似、但規(guī)模小得多的網(wǎng)絡。
早期的結(jié)果表明,這種方法應該可以將訓練 GPT-3 之類的網(wǎng)絡所需的計算機功率減少一半,從而降低開發(fā)成本。
Mosaic ML 計劃將大部分技術(shù)開源,同時也為降低 AI 技術(shù)成本的公司提供咨詢服務。Carbin 說,未來可能會有一種這樣的產(chǎn)品,一款能夠在訓練模型的準確性、速度和成本方面實現(xiàn)權(quán)衡的工具。
「不過目前,還沒有人真正知道如何將所有這些方法組合在一起。」他說。