谷歌DeepMind爆火動畫18秒解釋LLM原理,網友蒙圈!組團求GPT-4下場分析
Google DeepMind最近在自己的視頻博客上上傳了一段視頻,「簡單明了地」演示了大語言模型的工作原理,引發了網友的激烈討論。
網友看了之后紛紛表示:
「終于,他們發了點普通人能看懂的東西了」。
「哦豁,這下懂了」
「對,就是這么簡單!」
「太棒了,感謝感謝,這下我明白了?!?/span>
「簡單明了」,「已經不能再簡單了!」
當然,也有個別老實人在角落里小聲地嘀咕,「像極了嘴上說著懂了懂了,實際上啥也看不懂的我?!?/span>
如果你還不確定自己真的沒懂LLM的工作原理,看了這個視頻之后就能確定你其實真的不懂。??
果然應了那句老話,「人類的悲(ren)喜(zhi)并不相通」。
除了皇帝的新裝外,也有網友嘗試解釋DeepMind做出這個作品的深意:
這位網友猜測了這個動畫的誕生原因:「我不敢相信我們取得了什么成就,但我們不能真正把這些都拿出來......你能讓實習生發表一些藝術和有趣的東西嗎?」
「所以這是一個3D算盤?」
但是有人表示這個「3D算盤」是有現實依據的,畢竟熟悉神經網絡的朋友可能一下就想到了矩陣:
「我完全不同意。這看起來像是神經網絡架構的3D渲染。移動的方塊看起來像是數據在Transformer模型或類似模型中移動時對數據的矩陣操作。
滑動矩形可以表示卷積神經網絡的滑動窗口,或者可能試圖表示Transformer的注意力機制,這是通過將矩陣相乘來實現的?!?/span>
當然也有人嘗試給出更加專業化的解讀:
如果你對機器學習模型有所了解,那么就能看懂這個動畫描述得其實很到位了。簡單來說就是,每一個非常小的層都負責查看一個非常小的數據。
想象圖像中的一組4x4的像素。然后它向更高層發送一個信號,這個更高的層由許多這樣較小的層組成,說「我認為這是一個熱狗」。
它獲取該信號并將其傳遞到更高的層,高層將每一層組合成一個統計模型。每一層都是矩陣乘法的一種形式。
最終結果是一個可以根據小數據的統計推斷來預測某些內容的模型。這個過程的基本可視化過程就是視頻里這樣的,需要懂向量數學才能看懂。
請記住,這些是藝術家的詮釋方法,而不是真正的機器學習工程師專業解釋。所以他們把它做得看起來很酷,但是那些隨機飄進飄出的條形并沒有真正的意義。
我們來看另一位專業人士的解讀:
我的猜測是,這是對圖像處理神經網絡內部隱藏層的描述。可能是為了分類或生成,無法真正分辨。
發生的情況是,網絡中的每一層都經過多個過濾器——這些過濾器可能是在動畫中圍繞對象外部移動的矩形。您可以將濾鏡視為對圖像中的像素值進行一些轉換。例如,將這9個像素值取平均值。這種變換在動畫中顯示為改變顏色和方向的點。
然后,在應用過濾器和轉換后,結果將通過邏輯門,以查看它們是否激活。這被可視化為點突然出現和消失。神經網絡中的每一層都會有許多不同的過濾器/轉換/激活并行進行。然后,所有這些結果都會傳遞到網絡的下一層。
——如此看來,小編也非常喜歡這個動畫,并且已經逐漸理解了一切。
GPT-4V對視頻的解釋
我們把這個18秒的視頻截成了10張圖,喂給了GPT-4,讓它給我們解釋一下這個視頻的含義。
你提供的圖像似乎是大型語言模型(如GPT)的程式化表示。用簡單的語言來說,這些圖像可能試圖以更具體或更容易理解的方式可視化語言模型的復雜內部運作。
在大型語言模型中,數據(例如書籍、文章、網站等中的文本)通過多層神經網絡進行處理,神經網絡是一種識別數據模式的數學模型。網絡的每一層都會處理從前一層接收到的信息,逐漸提取更抽象的特征和關系。
這些圖像似乎隱喻地代表了這個過程。立方體可以代表數據單元或token(如單詞或單詞的一部分),它們之間的不同顏色和連接可能象征著模型如何處理這些標記并將這些標記相互關聯以理解上下文和含義。清晰的管道和結構可能說明了數據流經模型的神經網絡的架構。
它就像一個復雜的工廠,原材料(數據)進來,經過各個處理階段(神經網絡層),然后產生最終產品(連貫的文本輸出)。這種可視化有助于傳達這樣的想法:語言模型以復雜的方式組織和轉換輸入數據,以生成模仿人類對語言的理解的響應。
當我們要求他針對圖中不同顏色的立方體進行更加細節的補充說明時,GPT-4這樣說到:
圖像中不同顏色的立方體可能是語言模型處理的各個數據點或token的符號表征。在語言模型的上下文中,token通常指一段文本,例如單詞或單詞的一部分。以下是這些立方體的顏色和排列可能代表的內容的細分:
不同的顏色:每種顏色可以代表數據的不同方面或模型正在處理的不同類型的信息。例如,藍色立方體可能代表常見單詞,而橙色立方體可能代表在給定上下文中具有更重要意義的關鍵字或短語。
立方體的排列:立方體的組織和連接方式可以可視化模型如何理解不同標記之間的關系。語言模型使用這些關系來理解上下文并生成連貫且適合上下文的響應。
立方體層:如果立方體以層的形式顯示,則這可能代表神經網絡的層。當數據通過每一層時,模型會完善其理解、調整連接并對不同標記的要性進行不同的加權。
透明結構:連接立方體的透明管或結構可能表明數據通過模型架構的路徑。它們可以象征信息流以及信息如何在模型的不同部分之間共享。
值得注意的是,此類可視化是高度抽象的,旨在提供語言模型內操作的概念視圖。實際過程涉及復雜的數學函數和高維數據,這些數據沒有物理形式,但通常出于教育和說明目的而可視化。
既然大家都提到了矩陣乘法,我們可以來對比一下Pytorch中關于矩陣乘法的實現。
上面是一個向量點積的示意圖,緊接著下面是矩陣乘法的實現。
不管像不像吧,反正移動數據點的精髓是把握住了。
Google AI可視化合集
事實上,這個讓廣大網友吃瓜的動畫來自于下面這個網站,而且帶有自己的使命。
Google的工作人員發表了對于這個項目的解釋。
「代碼流、發光的藍色大腦、白色機器人和西裝革履的男人,如果你在網上搜索人工智能,你會發現這些誤導性的說法。
這些刻板印象會延續長期存在的偏見,從而對公眾對人工智能技術的看法產生負面影響。它們還經常排除全局的視角,這種缺乏多樣性會進一步放大社會不平等。
通過我們的可視化AI計劃,我們委托來自世界各地的藝術家創作更多樣化、更易于理解的AI表現形式。這些圖像的靈感來自與我們的科學家、工程師和倫理學家的對話。
多樣化我們可視化新興技術的方式是擴大公眾對人工智能今天和未來愿景的第一步?!?/span>
以下這些,也是Google DeepMind在同一個網站上發布的作品。
比如下面這個,小編是一眼就看出了其中的「深意」——這也許是在教我們擴散模型的原理?
另一個作品,看起來則像是在講Transformer架構——先把自然語言向量化,然后注入綠色的attention模塊,甚至還可以體會到大模型「涌現」的感覺。
對此,不知道大家怎么看?