為什么人工智對于電力有巨大需求?
當(dāng)今的人工智能(AI)系統(tǒng)離復(fù)制真正的人類智能還很遠(yuǎn)。但是,他們在識別數(shù)據(jù)模式和挖掘見解方面肯定會做得更好,在某種程度上要比我們更好。目前,人工智能模型可以識別圖像,通過聊天機(jī)器人與人交談,駕駛自動駕駛汽車,甚至在國際象棋中贏得了我們的青睞。但是,您知道嗎,訓(xùn)練和構(gòu)建這些模型所涉及的能源和功耗非常驚人?換句話說,訓(xùn)練人工智能是高碳足跡的高能耗過程。
因此,減少這種能源消耗將對環(huán)境產(chǎn)生積極的連鎖影響。此外,它還將為企業(yè)帶來其他好處,例如減少其碳足跡并更接近與碳有關(guān)的目標(biāo)。在繼續(xù)建設(shè)節(jié)能人工智能或綠色人工智能之前,我們必須了解為什么人工智能如此耗電?
訓(xùn)練神經(jīng)網(wǎng)絡(luò)
以一個神經(jīng)網(wǎng)絡(luò)模型為例。神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)類型,它通過鏡像人腦來進(jìn)行自我建模。由節(jié)點(diǎn)層組成的神經(jīng)網(wǎng)絡(luò)試圖通過模仿人的大腦功能來識別數(shù)據(jù)集中的潛在關(guān)系。每個節(jié)點(diǎn)相互連接,并具有關(guān)聯(lián)的權(quán)重和閾值。假設(shè)節(jié)點(diǎn)的輸出值高于指定的閾值,則表明該節(jié)點(diǎn)已激活并準(zhǔn)備將數(shù)據(jù)中繼到神經(jīng)網(wǎng)絡(luò)的下一層。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括運(yùn)行前向通過,其中輸入通過它,并在處理輸入后生成輸出。然后,后向遍歷涉及使用前向遍歷中接收的錯誤,通過需要大量矩陣操縱的梯度下降算法來更新神經(jīng)網(wǎng)絡(luò)的權(quán)重。
2019年6月,來自馬薩諸塞州大學(xué)阿默斯特分校的一組研究人員發(fā)表了一篇關(guān)于他們的研究的論文,他們在其中評估了訓(xùn)練四個大型神經(jīng)網(wǎng)絡(luò)所需的能源消耗。這些神經(jīng)網(wǎng)絡(luò)包括:Transformer、ELMo、BERT和GPT-2,它們分別在單個GPU上進(jìn)行了一天的訓(xùn)練,并測量了整個過程的能耗。
這些神經(jīng)網(wǎng)絡(luò)之一,即BERT使用了來自英語書籍和維基百科文章的33億個單詞。根據(jù)KateSaenko的《對話》一文,BERT在訓(xùn)練階段不得不讀取大約40次此龐大的數(shù)據(jù)集。為了進(jìn)行比較分析,她提到一個五歲的普通孩子學(xué)會說話,到這個年齡可能會聽到4500萬個單詞,比BERT少3000倍。
在馬薩諸塞大學(xué)阿默斯特分校的研究中,研究人員發(fā)現(xiàn),對BERT進(jìn)行訓(xùn)練曾經(jīng)使一名乘客在紐約和舊金山之間往返旅行時產(chǎn)生了碳足跡。該團(tuán)隊通過將該數(shù)字乘以每個模型的原始開發(fā)人員報告的總訓(xùn)練時,間來計算出訓(xùn)練每個模型的總功耗。碳足跡是根據(jù)美國電力生產(chǎn)中使用的平均碳排放量計算的。
實驗研究還包括培訓(xùn)和開發(fā)稱為神經(jīng)建筑搜索的調(diào)整過程。該技術(shù)涉及通過耗費(fèi)大量精力的反復(fù)試驗過程使神經(jīng)網(wǎng)絡(luò)的設(shè)計自動化。此額外的調(diào)整步驟用于提高BERT的最終精度,估計產(chǎn)生了626,155噸的二氧化碳,大約等于五輛汽車的總壽命碳足跡。相比之下,美國人平均每年會產(chǎn)生18.078噸的二氧化碳排放量。
GPU饑餓
借助如今強(qiáng)大的GPU(圖形處理單元),人工智能的發(fā)展成為可能。這些GPU通常會消耗大量電能。根據(jù)NVIDIA的說法,GPU耗散的最大功率等于250W,是IntelCPU的2.5倍。同時,研究人員認(rèn)為擁有更大的人工智能模型可以帶來更好的準(zhǔn)確性和性能。這與游戲筆記本電腦的性能相似,盡管游戲筆記本電腦的功能比普通筆記本電腦高,但由于性能高而變得更快。如今,人們可以在幾分鐘內(nèi)租用具有數(shù)十個CPU和強(qiáng)大GPU的在線服務(wù)器,并快速開發(fā)強(qiáng)大的人工智能模型。
根據(jù)位于舊金山的人工智能研究實驗室OpenAI的研究,從機(jī)器學(xué)習(xí)發(fā)展的早期到2012年,該技術(shù)所需的計算資源數(shù)量每兩年翻一番(這與摩爾的處理器能力增長定律相提并論)。但是,2012年之后,構(gòu)建一流模型的計算能力軌跡平均每3.4個月翻一番。這意味著新的計算要求會轉(zhuǎn)化為人工智能帶來的負(fù)面環(huán)境影響。
現(xiàn)在,專家們還認(rèn)為,構(gòu)建大規(guī)模的人工智能模型并不一定意味著在性能和準(zhǔn)確性方面會有更好的ROI。因此,公司可能必須在準(zhǔn)確性和計算效率之間進(jìn)行權(quán)衡。
尖峰神經(jīng)網(wǎng)絡(luò)
美國橡樹嶺國家實驗室的一個研究小組之前已經(jīng)展示了一種有前途的方法,可以通過將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為尖峰神經(jīng)網(wǎng)絡(luò)(SNN)來提高人工智能能源效率。SNN復(fù)制了大腦的神經(jīng)觸發(fā)機(jī)制,因此具有大腦的許多功能,例如能量效率和時空數(shù)據(jù)處理。美國橡樹嶺國家實驗室團(tuán)隊通過引入隨機(jī)過程來加深深度加標(biāo)神經(jīng)網(wǎng)絡(luò)(DSNN),該過程增加了諸如貝葉斯深度學(xué)習(xí)之類的隨機(jī)值。貝葉斯深度學(xué)習(xí)是通過將隨機(jī)值引入神經(jīng)網(wǎng)絡(luò)來模仿大腦如何處理信息的嘗試。通過這一動作,研究人員可以知道在哪里執(zhí)行必要的計算,從而降低能耗。
目前,SNN被吹捧為神經(jīng)網(wǎng)絡(luò)的下一個迭代,也是神經(jīng)形態(tài)計算的基礎(chǔ)。去年,荷蘭國家數(shù)學(xué)和計算機(jī)科學(xué)國家研究中心(CWI)的研究人員以及荷蘭埃因霍溫的IMEC/Holst研究中心的研究人員已經(jīng)成功開發(fā)了一種用于加標(biāo)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。