成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「變形金剛」五年代替狂卷的CNN!Transformer將統帥人工智能?

人工智能 機器視覺 新聞
一個看似簡單的算法,不僅徹底改變了神經網絡處理語言的方式,而且還逐漸地影響到了整個計算機視覺領域。也許,它所帶來的可能性遠不止這些。

現在在AI業界家喻戶曉的Transformer,究竟是怎樣在短短時間爆火的?

 

Transformer的起源

想象一下你逛附近的五金店,在貨架上看到一種新型的錘子。它比其他錘子敲得更快、更準確,在過去幾年里,它已經淘汰了許多其他錘子,至少在大多數用途中是這樣。 而且通過一些調整——這里加個附件,那里加個扭矩——這個工具還能變成了一把鋸子!它的切割速度和精確度不亞于任何同類產品。 事實上,一些處于五金開發前沿的專家表示,這把錘子可能只是所有五金工具將融合到單個設備中的前兆。 類似的故事正在AI業界中上演。 那個「多功能的新錘子」是稱為Transformer的人工神經網絡,這是一種通過對現有數據進行訓練來「學習」如何完成某些任務的節點網絡。

  

最初,Transformer被用于語言處理,不過最近則影響到了更多的領域。2017年,Transformer首次出現在谷歌研究人員發表的論文中,該論文題目是神秘的「Attention Is All You Need」。 之前其他人工智能的通用路徑是,系統會首先關注輸入數據局部的塊,然后再去構建整體。例如,在語言模型中,鄰近的單詞首先會被組合在一起。 而Transformer的運行路徑,則會讓輸入數據中的每個單元都相互聯系或得到關注,研究人員將此稱為「自注意力」。這意味著一旦開始訓練,Transformer就可以看到整個數據集的處理軌跡。 

論文鏈接:https://arxiv.org/abs/1706.03762 很快,Transformer就成為專注于分析和預測文本的單詞識別等應用程序的領頭羊。它催生了一批新的AI工具,比如OpenAI的GPT-3,它可以訓練數千億個單詞并持續生成語義可讀的新文本,智能到令人不安。 Transformer的成功讓AI業界好奇它還能完成其他哪些任務,而答案正在揭曉。 在諸如圖像分類的視覺任務中,使用Transformer的神經網絡更快、更準確。而那些需要一次性處理多種輸入數據/計劃任務的新興任務也預示著,Transformer能執行的工作還可以更多。 就在10年前,AI學界的不同子領域之間幾乎沒有共通語言。但Transformer的到來表明了融合的可能性。 

 

德克薩斯大學奧斯汀分校的計算機科學家Atlas Wang說:「我認為Transformer之所以如此受歡迎,是因為它暗含著全領域通用的潛力。我們有充分的理由想要在整個AI科學范圍內嘗試使用Transformer」。 

從語言到視覺

 在「Attention Is All You Need」論文發布幾個月后,擴大Transformer應用范圍的最有前途的舉措之一就開始了。 當時在柏林的谷歌研究部門工作的計算機科學家Alexey Dosovitskiy,正在研究計算機視覺,這是一個專注于教計算機如何處理和分類圖像的AI子領域。 與該領域的幾乎所有其他人一樣,他當時的常用工具是卷積神經網絡(CNN),多年來,這種技術推動了深度學習、尤其是計算機視覺領域的所有重大飛躍。 CNN的工作原理是反復對圖像中的像素使用濾波器,以建立對特征的識別。正是由于卷積功能,照片應用程序可以按面孔組織圖片庫,或者將云與鱷梨區別開來。 由此,CNN也成為了視覺任務處理中必不可少的工具。 

 

Dosovitskiy正在研究該領域最大的挑戰之一,即擴大CNN的規模,以訓練越來越高分辨率圖像帶來的越來越大的數據集,同時不增延處理時間。 這時他注意到,Transformer在NLP任務中幾乎已經完全取代了此前所有的工具。 那么,是否也能在視覺處理上做到類似效果呢? 這個想法很有洞見。畢竟,如果Transformer可以處理單詞的大數據集,為什么不能處理圖片的呢? 最終的結果是一個名為「視覺Transformer」或ViT的神經網絡,研究人員在2021年5月的一次會議上展示了該網絡。

 

論文鏈接:https://arxiv.org/abs/2010.11929 該模型的架構與2017年提出的第一個Transformer的架構幾乎相同,只進行了微小的更改,使其能夠分析圖像而非文字。 ViT團隊知道他們無法完全模仿Transformer處理語言數據的方法,因為每個像素的自注意力要在模型運行中全部完成,將會極其耗時。 相反,他們將較大的圖像劃分為正方形的單元,也就是所謂的詞元(token)。詞元大小是任意的,因為可以根據原始圖像的分辨率變大或變小(默認是每邊16像素)。 通過分單元處理像素,并對每個單元應用自注意力,ViT可以快速處理大量訓練數據集,從而產生越來越準確的分類。

  

Transformer以超過90%的準確率對圖像進行分類,這比Dosovitskiy預期的結果要好得多。在ImageNet分類挑戰賽這項業界標桿性圖像識別比賽中,ViT迅速獲得榜首。 ViT的成功表明,CNN可能不像很多研究人員認為的那樣,是計算機視覺的唯一基礎。 與Dosovitskiy合作開發ViT的Neil Houlsby說:「我認為CNN很可能在不久的未來被視覺Transformer或其衍生品所取代。」 與此同時,其他的結果也支持了這個預測。 在2022年初的測試中,ViT的更新版本僅次于將CNN與Transformer相結合的新方法。而之前的冠軍CNN模型,現在勉強進入前10名。

Transformer是如何工作的?

ImageNet的結果表明,Transformer的確可以與CNN相抗衡。 但是,谷歌的計算機科學家Maithra Raghu想知道它們是否像CNN那樣「看到」圖像。 雖然神經網絡是一個臭名昭著的黑匣子,但有一些方法可以窺探其內部情況。 比如。通過逐層檢查網絡的輸入和輸出,從而了解訓練數據是如何流動的。

 

論文鏈接:https://arxiv.org/abs/2108.08810 對于CNN來說,它會逐個像素地識別圖像,通過從局部到全局的方式識別每一個角落或線條的特征。 在自注意力的加持下,Transformer甚至可以在神經網絡的第一層,就把分布在圖像兩頭的信息建立聯系。 如果說CNN的方法就像從一個像素開始放大,那么Transformer則是慢慢地將整個模糊的圖像變得清晰。 這種差異在語言領域更容易理解。比如,貓頭鷹發現了一只松鼠。它試圖用爪子抓住它,但只抓到了它的尾巴末端。第二個句子的結構令人困惑。 這些「它」指的是什么?一個只關注緊挨著「它」字的CNN會很費勁,但一個將每個字與其他字聯系起來的Transformer可以看出,貓頭鷹做了抓取的動作,而松鼠則失去了部分尾巴。

  

融合正在發生

 現在研究人員希望將Transformer應用于一項更艱巨的任務:生成新圖像。 就像GPT-3等語言工具可以根據其訓練數據生成新文本一樣。 于是,在2021年發表的一篇論文中,Wang結合了兩個Transformer模型,試圖對圖像做同樣的事情。這是一個困難得多的任務。 

論文鏈接:https://arxiv.org/abs/2102.07074 當雙Transformer網絡在超過20萬名人的面部圖片上進行訓練時,它以中等分辨率合成了新的面部圖像。 根據初始分數(一種評估神經網絡生成圖像的標準方法),Transformer生成的名人圖片令人印象深刻,并且至少與CNN生成的名人圖片一樣令人信服。

  

Transformer在生成圖像方面的成功,比ViT在圖像分類方面的能力更令人驚嘆。 同樣,在多模態處理方面,Transformer也有了一席之地。 在以前孤立的方法中,每種類型的數據都有自己的專門模型。而多模態網絡則可以讓一個程序除了聽聲音外,還可以讀取一個人的嘴唇。也就是可以同時處理多種類型數據的模型,如原始圖像、視頻和語言。 「你可以擁有豐富的語言和圖像信息表示數據,」Raghu說,「而且比以前更深入。」

  

新興項目表明了Transformer在其他AI領域的一系列新用途,包括教機器人識別人體運動、訓練機器識別語音中的情緒以及檢測心電圖體現的患者壓力程度。 另一個帶有Transformer組件的程序是AlphaFold,2021年它因其快速預測蛋白質結構的能力而成為頭條新聞——這項任務以前需要十年的時間深入分析。 

利弊

 即使Transformer可以有助于AI工具的融合和改進,新興技術通常也會帶來高昂的代價,Transformer也不例外。 Transformer在預訓練階段需要更高的算力支撐,然后才能發揮擊敗傳統競爭對手的準確性。 Wang表示,人們總會對高分辨率圖像越來越有興趣。而由此帶來的模型訓練成本上漲,可能是Transformer廣泛鋪開的一個缺陷。 不過,Raghu認為此類訓練障礙可以通過復雜的濾波器和其他工具輕松克服。

  

Wang還指出,盡管視覺Transformer已經引發了推動AI前進發展的新項目——包括他自己的項目在內,但許多新模型仍然包含了卷積功能的最精華部分。 這意味著未來的模型更有可能同時使用CNN與Transformer,而不是完全放棄CNN。而這預示了此類混合架構的誘人前景。 或許,我們不應該急于得出Transformer將成為最終模型的結論。 不過可以肯定的是,Transformer越來越有可能成為從業者常光顧的AI五金店里任何一種新的超級工具的必備組件。 

責任編輯:張燕妮 來源: 新智元
相關推薦

2011-08-09 15:20:38

2011-07-22 09:03:20

FTTHPONEPON

2009-07-13 18:11:53

2020-02-04 20:00:02

人工智能AI教育

2009-07-24 16:52:47

2011-12-16 15:34:15

IaaS云計算變形金剛

2011-07-06 09:13:55

服務器Watson變形金剛

2015-08-04 09:22:37

2013-04-17 15:07:26

Windows PhoWindows Pho

2009-07-09 19:01:23

2012-02-23 00:22:55

2021-04-12 09:47:08

機器人人工智能編程

2023-11-27 16:33:05

2017-07-25 08:21:05

2009-06-25 08:57:15

木馬網絡安全金山毒霸

2020-10-12 08:17:53

編程語言GoPython

2021-02-20 12:21:16

AI 數據人工智能

2023-02-10 15:13:20

2012-12-10 11:32:12

打印機

2021-04-25 11:53:25

人工智能AI深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 九九导航| wwww.8888久久爱站网 | 亚洲一区二区在线播放 | 国产高清精品在线 | 粉嫩一区二区三区国产精品 | 看片地址 | 国产激情自拍视频 | 国产资源视频 | 美国av毛片 | 色婷婷久久 | 国产成人一区二区三区精 | 操久久 | 综合精品久久久 | 亚洲人成人一区二区在线观看 | 罗宾被扒开腿做同人网站 | 美女爽到呻吟久久久久 | 亚洲国产一区在线 | 欧美激情国产日韩精品一区18 | 天天拍夜夜爽 | 精品一区二区三区免费视频 | 黑人精品欧美一区二区蜜桃 | 国产精品美女久久久久aⅴ国产馆 | 日韩av在线一区二区 | 欧美在线a| 精品在线一区二区三区 | 久久免费观看一级毛片 | 成年女人免费v片 | 亚洲免费在线观看 | 紧缚调教一区二区三区视频 | 伊人免费网 | 成人二区 | 91九色在线观看 | 午夜久久久 | 日韩免费 | 日韩手机在线视频 | 久久av网站 | 九九九视频在线观看 | 日韩乱码一二三 | 黄色成人免费在线观看 | 欧美日韩18 | 久久久久久综合 |