回顧精彩瞬間!IEEE Spectrum盤點2023年度熱門AI故事
又是冬日,又到結尾,
氣溫回升了一點,蒼茫天地間仍有一些尚未消融的潔白。
「雪霽銀裝素,桔高映瓊枝」。
不知大家這一年過得怎么樣呢?
2023很可能成為人工智能歷史上最狂野、最戲劇性的年份之一。
圖片
Spectrum總結了本年度關于AI的最受歡迎的文章,
讓我們一起看看這將會載入史冊的一年——除非2024更加瘋狂。
圖表總結2023
斯坦福大學以人為本的人工智能研究所(HAI)收集了一年的人工智能數據,幫助大家全面了解當今的人工智能世界。
下面將這份302頁的報告提煉為下面的幾張圖表:
圖片
運行大模型的碳成本很高:考慮到模型中的參數數量、數據中心的能源效率以及用于供電的發電類型,即使是四種模型中效率最好的BLOOM,排放的碳也比美國居民一年的平均使用量還要多。
圖片
十年來,私人人工智能投資首次下降,比2021年下降了約三分之一,為1896億美元。
圖片
2021年(可用的最新數據),65.4%的人工智能博士進入工業界,而28.2%的人在學術界工作。
圖片
隨著博士人數的增加,工業界在開發新的機器學習模型方面領先于學術界。
直到2014年,大多數新的機器學習模型都來自學術界,而到了2022年,根據HAI收集的數據,有32個行業生產的機器學習模型,而學術界只有3個。
《人工智能指數報告》指出,工業界在獲取大量數據、計算機能力和資金方面也具有優勢,而這些都是構建最先進的人工智能系統所必需的。
「最大的問題之一是,大學將在多大程度上獲得資源來建立自己的大型模型,而不是從外部修補模型?!?/span>
圖片
有關濫用人工智能的事件數量正在激增。
圖片
HAI報告稱,127個國家/地區通過的與人工智能相關的法律有所增加,2016年僅通過了一項,而2022年為37項。
圖片
在中國,公民普遍是人工智能的粉絲;而在法國、加拿大、荷蘭和美國,情況并非如此。
78%的中國受訪者認為,使用人工智能的產品和服務利大于弊。在美國,只有35%的人認為人工智能有凈收益。
圖片
上面是一項對自然語言處理研究人員進行的調查,絕大多數人(73%)預計人工智能將很快帶來革命性的社會變革,而有大約三分之一(36%)的研究人員認為人工智能可能導致災難。
這是大約一年前的數據,現在看起來有點意思。
200年前的數學打開AI黑匣子
無論是設計芯片還是構思新的蛋白質,神經網絡似乎可以做任何事情。
但是當前AI的不可解釋性又常常引發人們的擔憂。
圖片
今年二月,一項研究使用數學幫助闡明神經網絡如何執行復雜的任務(例如預測氣候或模擬湍流)。這同時又可以提高神經網絡的準確性和學習速度。
休斯頓萊斯大學(Rice University, in Houston)的流體動力學家Pedram Hassanzadeh和他的同事,嘗試使用傅里葉分析,來識別數據中跨空間和時間的規則模式。
研究人員選擇了一個經過訓練的深度神經網絡(該神經網絡可以分析大氣中的空氣或海洋中的水中所看到的復雜湍流,并預測這些流動如何隨時間變化),然后對這個網絡的控制方程進行了傅里葉分析。
這個網絡有大約100萬個參數,分布于約40000個kernel中,在對所有這些kernel進行傅里葉分析后,研究人員發現神經網絡的參數表現為低通、高通和Gabor濾波器的組合。
多年來,科學家們一直試圖將這些過濾器結合起來分析氣候和湍流。然而,這些組合在對這些復雜系統進行建模時往往不能成功。——而神經網絡學會了正確組合這些過濾器的方法。
Hassanzadeh表示,除了氣候和湍流模型之外,傅里葉分析還可能有助于研究作用于其他復雜系統的神經網絡。包括噴氣發動機內部的燃燒、風電場中的流動、木星和其他行星的大氣層、等離子體、太陽和地球內部的對流等等。
「數字來世」產業
These companies could use your data to bring you back——without your consent.
這些公司可能會在未經您同意的情況下使用您的數據將您帶回。
今天,「數字來世產業」已經使得根據死者留下的數據重建死者成為可能。
比如Microsoft擁有一項專利,可以使用他們的社交數據創建特定人的對話聊天機器人。
這份長達21頁的專利中,記錄了軟件和硬件系統的設計方式。這個想法是訓練一個聊天機器人,使用文本或聽覺作為輸入,聊天機器人會模擬特定人類的身份進行對話。
五年多前,研究人員確定了一個由57家公司組成的數字來世行業。目前,此類公司包括:以親人的聲音提供互動記憶的公司(HereAfter);在用戶去世后向親人發送預定消息的公司(MyWishes);
另外還有一家機器人公司,根據「她的記憶、感受和信仰」制作了一個已故女性的機器人半身像,該半身像繼續與人類交談,甚至上了大學課程(Hanson Robotics)。
對此,作為旁觀者,可以是興奮、可以是畏懼,或者只是聳聳肩。但生活于這個時代的每個人,都肯定會留下數字痕跡。
英偉達成功的秘訣
在過去的10年里,英偉達成功地將其芯片在AI任務上的性能提高了一千倍,我們來看一下其中有哪些優化。
圖片
量化
在P100之前,Nvidia GPU使用單精度浮點數字表示模型權重,但機器學習研究人員很快了解到,在許多計算中,他們可以使用不太精確的數字,神經網絡仍然會得出同樣準確的答案。
這樣做的明顯優勢是,如果機器學習的關鍵計算(乘法和累加)需要處理更少的比特,則可以使執行機器學習關鍵計算的邏輯更快、更小、更高效。
因此,在P100中,英偉達使用FP16的數據格式。
快進到今天,英偉達領先的GPU H100可以使用8位的數據格式來執行大規模神經網絡的某些部分。
圖片
不過這并不是一個放之四海而皆準的解決方案。所以英偉達的Hopper GPU架構實際上使用兩種不同的FP8格式進行計算,一種精度略高,另一種范圍略高。
復雜指令
獲取和解碼指令的開銷是執行簡單算術運算的很多倍,所以GPU采取在單個指令中執行大量計算的方式。
稀疏
經過訓練后,神經網絡中有許多神經元可能一開始就不存在。對于某些網絡,你可以修剪掉一半或更多的神經元,而不會失去準確性。
使這些網絡「稀疏」以減少計算負載是一項棘手的工作。但是在H100的前身A100中,英偉達引入了所謂的結構化稀疏性。
硬件可以強制每四個可能的修剪事件中的兩個發生,從而使矩陣計算變小。
參考資料: