40納秒完成圖像分類,圖像傳感器自帶神經網絡登上Nature
AI芯片還可以怎么搞?登上Nature的研究帶來新啟發。
過去,我們做圖像分類都是分成好幾步:先用傳感器收集圖像模擬信號,數模轉換后再交給計算機處理。整個過程既耗能又費時,就像眼睛把圖像傳給大腦。
試想一下,如果人類眼睛可以直接處理圖像——不用勞煩大腦,那視覺圖像信息的處理速度豈不是可以大大提升?

今天,Nature這篇新研究開拓性在于,直接讓“眼睛”處理圖像。而且效果反饋也相當震撼:
利用新感光元件,僅僅40納秒即可完成圖像分類,比交給計算機處理快了幾十萬倍。
真是不得了。
光電二極管網絡
核心來說,研究團隊在芯片上構建了一個光電二極管網絡,并選擇2D半導體二硒化鎢(WSe2)作為光敏材料。

△單個二硒化鎢光電二極管示意圖
光電二極管陣列由27個具有良好均勻性、可調性和線性度的檢測器組成,排列為3×3的成像陣列,像素大小約為17×17μm,每個像素由3個二硒化鎢光電二極管(子像素)組成,其對光的響應度可以通過柵極電壓調節。
也就是說,可以通過改變施加的電壓來調節半導體對光的響應,從而調節每個二極管的靈敏度。

實際上,這就將光電傳感器網絡變成了神經網絡,將光學傳感和神經形態計算結合起來,使其能夠執行簡單的計算任務。
改變二極管的靈敏度,就相當于改變神經網絡中的權重。
把權重放在傳感器上
與其他神經不同的是,這套系統的權重不是存在計算機的內存和硬盤里,而是直接集成在圖像傳感器上。
實驗中使用的有硒化鎢光電二極管制成的特殊門電路。它的特殊就在于可以調制,相當于神經網絡的訓練。
隨著外接偏置電壓的不同,二極管對光線的敏感程度也不同,等于將網絡的訓練結果直接放在傳感器端。

之前的神經網絡都是將訓練權重存儲在外部存儲器上,通過電路發送到每個檢測器件上。
就像電腦的內存,斷電后就會丟失存儲信息。
而這一套設備,更像是硬盤,即使掉電后也能將權重信息存儲下來。
研究人員將調制的電極也就是浮柵(floating gate)埋在氮化硼絕緣層中,一開始先對氧化鋁絕緣層中的柵極加上電壓,接著撤去外部電壓。
浮柵依舊能在接下來的2300秒內維持對光電二極管的調制,直到改變外部偏置電壓為止。

研究人員用這種方法實現了兩種類型的神經網絡:分類器和自動編碼器。
在分類器中,光電二極管陣列、芯片感知器以及在芯片外的非線性激活函數一起運行。這種類型的神經代表一種監督學習算法,該算法能夠將輸入圖像P分為不同的輸出類別y。

實際效果如何呢?他們3×3像素制作了一組“簡陋”的字母,分別是n、v、z。

圖像傳感器經過訓練后,只需測量對應電路的電流是否為0,就能知道是哪個字母。

通過電壓隨時間的變化圖可以看出,當傳感器接受到圖像40ns后,n和v兩種輸入產生的電壓開始出現巨大的差異,約100ns后差異達到最大。

第二種神經網絡是自動編碼器,可以在無監督的訓練過程中學習輸入圖像P的有效表示。它與解碼器一起使用,對解碼器進行訓練后,就可以在其輸出中重現圖像。
編碼器由光電二極管陣列本身構成,解碼器由外部電子器件構成。
在這個過程中,圖像的傳輸數據得到了壓縮。

潛力巨大,但仍需大量后續研究
40納秒就分辨出了兩張不同的圖像,AI視覺仿佛朝著人類大腦的效率更進一步。
但需要說明的是:這一令人興奮的新技術,距離實際應用,還有很長的路要走。
首先,由于光電二極管陣列僅由27個檢測器組成,最大只能處理3×3的圖像。

其次,想要真正應用于自動駕駛和機器人技術,視覺系統需要捕獲具有廣闊視野的三維動態圖像和視頻。而現在,該技術是將3D視覺信息轉換成2D來處理,丟失了運動信息和深度。
其圖像傳感器陣列的平面形狀,也限制了廣角相機的能力。
此外,根據Nature的報道,論文中描述的設備很難在昏暗光線下成像。并且,其設計需要高電壓和大功率,相比之下,生物神經網絡中每項操作消耗的能量僅為10-15到10-13焦耳。
從工藝角度上講,芯片所采用的薄半導體目前很難大面積生產加工。
而且,盡管圖像傳感器兼具了采集和計算功能,減少了模數轉換,但外部電路仍然存在固有延遲問題,還是會影響整個系統的等待時間。
不過,雖然還有很大的研究空間,在傳感器中計算的相關研究,推動了AI硬件的進一步發展。而這樣的研究思路,也不僅僅局限于計算機視覺,可以擴展到聽覺、觸覺等其他物理輸入中。
其他嘗試
人們對快速處理圖像信息的要求越來越高,很多科學家都在研究在輸入端處理圖像的方法。
最近來自荷蘭和美國學者也發明了一種在傳感器端直接處理圖像的方法。
不過他們不是輸出圖像的分類,而是輸出圖像的邊緣,這對于目標檢測和語義分割有重要的意義。
他們在傳感器前方加入了一個“超表面”:不到半毫米厚的藍寶石薄片,鍍上206 nm厚、142 nm高、間距300 nm的硅長條。

把它放置在CCD感光芯片的表面上時,超表面的作用就像一個透鏡,光線只能以陡峭的角度射向它,而過濾掉入射角很小的光。
圖像的特征是由不同光波的組合而成,濾除了光波攜帶的其他細節,僅留下了較尖銳的分量,例如人臉的邊緣,而不是單色的背景。

整個過程僅需要150納秒的時間,而交給計算機處理需要幾毫秒,二者相差4個數量級。
研究團隊
最后介紹下研究團隊,來自奧地利維也納工業大學的Unterrainer group。
論文一作:Lukas Mennel,是電氣工程與光子學專業在讀博士,曾作為訪問學者赴MIT交流學習,研究量子光子學。
△Lukas Mennel
論文的另一位通訊作者,是維也納工業大學副教授Thoms Mueller——托馬斯·穆勒,雖然不知道這位托馬斯·穆勒擅不擅長踢足球,但在2D材料科學領域,穆勒教授的研究涵蓋基礎研究、光電設備、電子集成電路、光子集成電路等,亦是卓有成就。
△Thoms Mueller
論文地址:https://www.nature.com/articles/s41586-020-2038-x