連續(xù)思維機(jī)器來(lái)了!Transformer八子之一創(chuàng)企推出,讓AI不再「一步到位」拍腦袋做決定
科學(xué)界的一個(gè)共識(shí)是:即使是最復(fù)雜的現(xiàn)代人工智能,也難以媲美人類大腦的表現(xiàn)和效率。
研究者經(jīng)常從大自然中尋找靈感,了解如何在人工智能領(lǐng)域取得進(jìn)步,例如利用進(jìn)化來(lái)合并模型、為語(yǔ)言模型進(jìn)化出更高效的記憶或探索人工生命的空間。雖然人工神經(jīng)網(wǎng)絡(luò)近年來(lái)讓人工智能取得了非凡的成就,但它們?nèi)匀皇瞧渖飳?duì)應(yīng)物的簡(jiǎn)化表征。所以,能否通過(guò)結(jié)合生物大腦中的特征,將人工智能的能力和效率提升到新的水平?
他們決定重新思考認(rèn)知核心的一個(gè)重要特征:時(shí)間。
剛剛,Transformer 作者之一 Llion Jones 聯(lián)合創(chuàng)立的的Sakana AI 發(fā)布了「連續(xù)思維機(jī)器」(Continuous Thought Machine,CTM),這是一種將神經(jīng)元活動(dòng)同步作為其核心推理機(jī)制的人工智能模型,也可看作一種新型人工神經(jīng)網(wǎng)絡(luò),它利用神經(jīng)元?jiǎng)討B(tài)之間的同步來(lái)完成任務(wù)。
- 博客地址:https://sakana.ai/ctm/
- 技術(shù)報(bào)告:https://pub.sakana.ai/ctm/paper/index.html
- 代碼地址:https://github.com/SakanaAI/continuous-thought-machines/
與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)不同,CTM 在神經(jīng)元層面使用定時(shí)信息,從而實(shí)現(xiàn)了更復(fù)雜的神經(jīng)行為和決策過(guò)程。這一創(chuàng)新使該模型能夠逐步「思考」問(wèn)題,使其推理過(guò)程具有可解釋性和類人性。
研究表明,在各種任務(wù)中,機(jī)器人解決問(wèn)題的能力和效率都有所提高。
Sakana AI 表示,CTM 是彌合人工神經(jīng)網(wǎng)絡(luò)與生物神經(jīng)網(wǎng)絡(luò)之間差距的重要一步,有可能開(kāi)啟人工智能能力的新領(lǐng)域。
CTM 解迷宮和思考真實(shí)照片的可視化(圖片來(lái)源:Alon Cassidy)。值得注意的是,盡管 CTM 的設(shè)計(jì)并不明確,但它在迷宮中學(xué)會(huì)的解法卻非常容易解釋,而且類似于人類,可以看到它在「思考」解法時(shí)描繪出通過(guò)迷宮的路徑。對(duì)于真實(shí)圖像,雖然沒(méi)有明確的激勵(lì)措施讓它四處查看,但它會(huì)以直觀的方式查看。
研究創(chuàng)新
盡管隨著 2012 年深度學(xué)習(xí)的出現(xiàn),人工智能的能力有了重大飛躍,但自 20 世紀(jì) 80 年代以來(lái),人工智能模型中使用的人工神經(jīng)元基本模型在很大程度上一直沒(méi)有改變。研究人員仍然主要使用神經(jīng)元的單一輸出,這代表了神經(jīng)元的激發(fā)情況,卻忽略了神經(jīng)元相對(duì)于其他神經(jīng)元激發(fā)的精確時(shí)間。
不過(guò),有力的證據(jù)表明,這種定時(shí)信息在生物大腦中至關(guān)重要,例如在依賴于尖峰定時(shí)的可塑性中,它是生物大腦功能的基礎(chǔ)。
在新模型中,Sakana AI 用來(lái)表示這種信息的方法是讓神經(jīng)元訪問(wèn)自身的行為歷史,并學(xué)習(xí)如何利用這些信息來(lái)計(jì)算自身的下一個(gè)輸出,而不僅僅是知道自身的當(dāng)前狀態(tài)。這樣,神經(jīng)元就能根據(jù)過(guò)去不同時(shí)期的信息改變自己的行為。此外,新模型的主要行為是基于這些神經(jīng)元之間的同步,這意味著它們必須學(xué)會(huì)利用這些時(shí)間信息來(lái)協(xié)調(diào)完成任務(wù)。研究者認(rèn)為,與當(dāng)代模型中觀察到的情況相比,這將產(chǎn)生更豐富的動(dòng)態(tài)空間和不同的任務(wù)解決行為。
在添加了這種定時(shí)信息后,Sakana AI 在許多任務(wù)中看到了一系列非同尋常的行為。他們看到的行為具有很強(qiáng)的可解釋性:在觀察圖像時(shí),CTM 會(huì)小心翼翼地在場(chǎng)景中移動(dòng)其視線,選擇關(guān)注最顯著的特征,而且它在某些任務(wù)中的表現(xiàn)有所提高。這讓研究者驚訝于神經(jīng)元活動(dòng)動(dòng)態(tài)中的行為多樣性。
CTM 中的神經(jīng)元?jiǎng)討B(tài)樣本,顯示神經(jīng)元如何隨不同的輸入而變化。CTM 顯然學(xué)會(huì)了多種神經(jīng)元行為。每個(gè)神經(jīng)元(隨機(jī)顏色)如何與其他神經(jīng)元同步。研究者對(duì)其進(jìn)行測(cè)量,并將其作為 CTM 的表征。
新模型的行為基于一種新的表征:神經(jīng)元之間隨時(shí)間的同步。研究者認(rèn)為這更容易讓人聯(lián)想到生物大腦,但并非嚴(yán)格意義上的仿真。他們將由此產(chǎn)生的人工智能模型稱為「連續(xù)思考機(jī)器」,它能夠利用這種新的時(shí)間維度、豐富的神經(jīng)元?jiǎng)討B(tài)和同步信息來(lái)「思考」任務(wù),并在給出答案前制定計(jì)劃。
命名中使用「連續(xù)」一詞,是因?yàn)?CTM 在推理時(shí)完全在內(nèi)部「思考維度」運(yùn)行。它對(duì)所消耗的數(shù)據(jù)是異步的:它可以以相同的方式對(duì)靜態(tài)數(shù)據(jù)(如圖像)或順序數(shù)據(jù)進(jìn)行推理。研究者在大量任務(wù)中測(cè)試了這一新模型,發(fā)現(xiàn)它能夠解決各種問(wèn)題,而且通常是以一種非常可解釋的方式。
研究者觀察到的神經(jīng)元?jiǎng)討B(tài)在某種程度上更像是在真實(shí)大腦中測(cè)量到的動(dòng)態(tài),而不是更傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),后者表現(xiàn)出的行為多樣性要少得多(請(qǐng)參閱下圖與經(jīng)典人工智能模型 LSTM 的比較)。CTM 顯示了以不同頻率和振幅振蕩的神經(jīng)元。有時(shí),單個(gè)神經(jīng)元會(huì)出現(xiàn)不同頻率的振蕩,而其他神經(jīng)元只有在完成任務(wù)時(shí)才會(huì)出現(xiàn)活動(dòng)。值得強(qiáng)調(diào)的是,所有這些行為都是完全突發(fā)的,并沒(méi)有設(shè)計(jì)到模型中,而是作為添加定時(shí)信息和學(xué)習(xí)解決不同任務(wù)的副作用出現(xiàn)的。
CTM 完整架構(gòu)如下圖所示,其中①為突觸模型(權(quán)重用藍(lán)線表示),建模跨神經(jīng)元交互以產(chǎn)生預(yù)激活。對(duì)于每個(gè)神經(jīng)元,②都會(huì)保留預(yù)激活的歷史記錄,其中最新的歷史記錄被 ③神經(jīng)元級(jí)模型(權(quán)重用紅線表示)用于產(chǎn)生④后激活。此外還會(huì)保留 ⑤ 后激活的歷史記錄,并用于 ⑥ 計(jì)算同步矩陣。從同步矩陣中選擇⑦神經(jīng)元對(duì),從而產(chǎn)生⑧潛在表征。CTM 用這些表征⑨產(chǎn)生輸出并通過(guò)交叉注意力機(jī)制調(diào)制數(shù)據(jù)。調(diào)制后的數(shù)據(jù)(例如注意力輸出)將與后激活連接起來(lái)⑩,用于下一個(gè)內(nèi)部時(shí)鐘周期。
CTM 架構(gòu)的測(cè)試效果
由于新增了時(shí)間維度,CTM 的一大優(yōu)勢(shì)在于:可以觀察并直觀地看到它如何隨著時(shí)間的推移解決問(wèn)題。傳統(tǒng)的 AI 系統(tǒng)可能只需通過(guò)神經(jīng)網(wǎng)絡(luò)一次性對(duì)圖像進(jìn)行分類,而 CTM 可以分多個(gè)步驟來(lái)「思考」如何解決任務(wù)。
下面展示了兩個(gè)任務(wù):解迷宮和照片中的物體分類。
首先來(lái)看解迷宮(Maze Solving)任務(wù)。在這個(gè)任務(wù)中,CTM 會(huì)被呈現(xiàn)一個(gè)自上而下的 2D 迷宮,并被要求輸出走出迷宮所需的步驟。這種模式尤其具有挑戰(zhàn)性,因?yàn)槟P捅仨毨斫饷詫m構(gòu)造并規(guī)劃解決方案,而不是簡(jiǎn)單地輸出路徑的視覺(jué)表示。
CTM 內(nèi)部連續(xù)的「思考步驟」使其能夠制定計(jì)劃,從而可以直觀地看到它在每個(gè)思考步驟中關(guān)注迷宮的哪些部分。值得注意的是,CTM 學(xué)會(huì)了一種非常類似于人類的解迷宮方法 —— 在它的注意力模式中沿著迷宮路徑前進(jìn)。
CTM 的行為模式尤其令人印象深刻,因?yàn)樗匀欢坏貜哪P图軜?gòu)中涌現(xiàn)出來(lái)。研究者并沒(méi)有特意設(shè)計(jì) CTM 來(lái)追蹤迷宮中的路徑,它通過(guò)學(xué)習(xí)自行開(kāi)發(fā)展了這種方法。他們還發(fā)現(xiàn),當(dāng)允許 CTM 進(jìn)行更多思考步驟時(shí),它會(huì)持續(xù)沿著訓(xùn)練好的路徑前進(jìn),這表明它確實(shí)學(xué)會(huì)了解決這個(gè)問(wèn)題的通用方法。
接下來(lái)是圖像識(shí)別任務(wù)。傳統(tǒng)的圖像識(shí)別系統(tǒng)只需一步即可做出分類決策,而 CTM 則需要多個(gè)步驟來(lái)檢查圖像的不同部分,然后再做出決策。這種循序漸進(jìn)的方法不僅使人工智能的行為更易于解釋,也提高了準(zhǔn)確率:它「思考」的時(shí)間越長(zhǎng),答案就越準(zhǔn)確。
研究者還發(fā)現(xiàn),這種方法使得 CTM 能夠減少在簡(jiǎn)單圖像上思考的時(shí)間,從而節(jié)省算力。例如,在識(shí)別大猩猩時(shí),CTM 的注意力會(huì)從眼睛轉(zhuǎn)移到鼻子,再轉(zhuǎn)移到嘴巴,這與人類的視覺(jué)注意力模式非常相似。
這些注意力模式為我們了解模型的推理過(guò)程提供了一個(gè)窗口,展示了它認(rèn)為哪些特征與分類目標(biāo)最相關(guān)。這種可解釋性不僅有助于理解模型的決策,還可能有助于識(shí)別和解決偏差或故障模式。
結(jié)論
盡管現(xiàn)代人工智能以「人工神經(jīng)網(wǎng)絡(luò)」的形式建構(gòu)在大腦之上,但即使在今天,人工智能研究與神經(jīng)科學(xué)之間的重疊仍然少得驚人。AI 研究人員選擇沿用上世紀(jì) 80 年代開(kāi)發(fā)的極簡(jiǎn)模型,并且得益于簡(jiǎn)單易用、訓(xùn)練高效等屬性,這些模型在推動(dòng)人工智能發(fā)展方面持續(xù)取得成功。
另一方面,神經(jīng)科學(xué)可以創(chuàng)建更精確的大腦模型,但其主要目的是理解大腦,而非試圖創(chuàng)建更高級(jí)的智力模型。當(dāng)然,兩者之間可能存在某種關(guān)聯(lián)。這些神經(jīng)科學(xué)模型盡管更加復(fù)雜,但性能往往仍低于當(dāng)前最先進(jìn)的 AI 模型,因此,這類模型可能在人工智能應(yīng)用領(lǐng)域缺乏進(jìn)一步研究的吸引力。
盡管如此,研究者認(rèn)為,如果現(xiàn)代人工智能在某些方面不能繼續(xù)向大腦的工作方式靠攏,我們將錯(cuò)失良機(jī)。我們或許能夠通過(guò)這種方式創(chuàng)建更強(qiáng)大、更高效的模型。2012 年,得益于受大腦啟發(fā)的神經(jīng)網(wǎng)絡(luò)模型,AI 能力出現(xiàn)躍升,「深度學(xué)習(xí)革命」才出現(xiàn)。
為了繼續(xù)推動(dòng)這一進(jìn)步,是否應(yīng)該繼續(xù)受到大腦的啟發(fā)呢?CTM 是研究者首次嘗試彌合這兩個(gè)領(lǐng)域之間的差距,它展現(xiàn)出一些更像大腦行為的初步跡象,同時(shí)仍然是一個(gè)可以解決重要問(wèn)題的實(shí)用人工智能模型。
研究者希望能夠繼續(xù)推動(dòng)模型朝著這個(gè)受自然啟發(fā)的方向發(fā)展,并探索可能出現(xiàn)的新功能。關(guān)于 CTM 在不同任務(wù)中的行為,請(qǐng)參閱原始技術(shù)報(bào)告。