成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<noscript id="w82qk"><abbr id="w82qk"></abbr></noscript>

<sup id="w82qk"><abbr id="w82qk"></abbr></sup>

<sup id="w82qk"><pre id="w82qk"></pre></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

作者：機器之心報道 2021-11-23 09:34:50

新聞深度學(xué)習(xí)

近日，一篇名為《GFlowNet Foundations》的論文引發(fā)了人們的關(guān)注，這是一篇圖靈獎得主 Yoshua Bengio 一作的新研究，論文長達 70 頁。

近日，一篇名為《GFlowNet Foundations》的論文引發(fā)了人們的關(guān)注，這是一篇圖靈獎得主 Yoshua Bengio 一作的新研究，論文長達 70 頁。

在 Geoffrey Hinton 的「膠囊網(wǎng)絡(luò)」之后，深度學(xué)習(xí)的另一個巨頭 Bengio 也對 AI 領(lǐng)域未來的方向提出了自己的想法。在該研究中，作者提出了名為「生成流網(wǎng)絡(luò)」（Generative Flow Networks，GFlowNets）的重要概念。

GFlowNets 靈感來源于信息在時序差分 RL 方法中的傳播方式（Sutton 和 Barto，2018 年）。兩者都依賴于 credit assignment 一致性原則，它們只有在訓(xùn)練收斂時才能實現(xiàn)漸近。由于狀態(tài)空間中的路徑數(shù)量呈指數(shù)級增長，因此實現(xiàn)梯度的精確計算比較困難，因此，這兩種方法都依賴于不同組件之間的局部一致性和一個訓(xùn)練目標，即如果所有學(xué)習(xí)的組件相互之間都是局部一致性的，那么我們就得到了一個系統(tǒng)，該系統(tǒng)可以進行全局估計。

至于 GFlowNets 作用，論文作者之一 Emmanuel Bengio 也給出了一些回答：「我們可以用 GFlowNets 做很多事情：對集合和圖進行一般概率運算，例如可以處理較難的邊緣化問題，估計配分函數(shù)和自由能，計算給定子集的超集條件概率，估計熵、互信息等?！?/p>

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

本文為主動學(xué)習(xí)場景提供了形式化理論基礎(chǔ)和理論結(jié)果集的擴展，同時也為主動學(xué)習(xí)場景提供了更廣泛的方式。GFlowNets 的特性使其非常適合從集合和圖的分布中建模和采樣，估計自由能和邊緣分布，并用于從數(shù)據(jù)中學(xué)習(xí)能量函數(shù)作為馬爾可夫鏈蒙特卡洛（Monte-Carlo Markov chains，MCMC）一個可學(xué)習(xí)的、可分攤（amortized）的替代方案。

GFlowNets 的關(guān)鍵特性是其學(xué)習(xí)了一個策略，該策略通過幾個步驟對復(fù)合對象 s 進行采樣，這樣使得對對象 s 進行采樣的概率 P_T (s) 與應(yīng)用于該對象的給定獎勵函數(shù)的值 R(s) 近似成正比。一個典型的例子是從正例數(shù)據(jù)集訓(xùn)練一個生成模型，GFlowNets 通過訓(xùn)練來匹配給定的能量函數(shù)，并將其轉(zhuǎn)換為一個采樣器，我們將其視為生成策略，因為復(fù)合對象 s 是通過一系列步驟構(gòu)造的。這類似于 MCMC 方法的實現(xiàn)，不同的是，GFlowNets 不需要在此類對象空間中進行冗長的隨機搜索，從而避免了 MCMC 方法難以處理模式混合的難題。GFlowNets 將這一難題轉(zhuǎn)化為生成策略的分攤訓(xùn)練（amortized training）來處理。

本文的一個重要貢獻是條件 GFlowNet 的概念，可用于計算不同類型（例如集合和圖）聯(lián)合分布上的自由能。這種邊緣化還可以估計熵、條件熵和互信息。GFlowNets 還可以泛化，用來估計與豐富結(jié)果 (而不是一個純量獎勵函數(shù)) 相對應(yīng)的多個流，這類似于分布式強化學(xué)習(xí)。

本文對原始 GFlowNet （Bengio 等人，2021 年）的理論進行了擴展，包括計算變量子集邊緣概率的公式（或自由能公式），該公式現(xiàn)在可以用于更大集合的子集或子圖；GFlowNet 在估計熵和互信息方面的應(yīng)用；以及引入無監(jiān)督形式的 GFlowNet（訓(xùn)練時不需要獎勵函數(shù)，只需要觀察結(jié)果）可以從帕累托邊界進行采樣。

盡管基本的 GFlowNets 更類似于 bandits 算法（因為獎勵僅在一系列動作的末尾提供），但 GFlowNets 可以通過擴展來考慮中間獎勵，并根據(jù)回報進行采樣。GFlowNet 的原始公式也僅限于離散和確定性環(huán)境，而本文建議如何解除這兩種限制。最后，雖然 GFlowNets 的基本公式假設(shè)了給定的獎勵或能量函數(shù)，但本文考慮了 GFlowNet 如何與能量函數(shù)進行聯(lián)合學(xué)習(xí)，為新穎的基于能量的建模方法、能量函數(shù)和 GFlowNet 的模塊化結(jié)構(gòu)打開了大門。

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

論文地址：https://arxiv.org/pdf/2111.09266.pdf

機器之心對這篇論文的主要章節(jié)做了簡單介紹，更多細節(jié)內(nèi)容請參考原論文。

GFlowNets：學(xué)習(xí)流（flow）

研究者充分考慮了 Bengio et al. (2021)中引入的一般性問題，在這些問題中給出了一些關(guān)于流的約束或偏好。研究者的目標是使用估計量 Fˆ(s)和 Pˆ(s→s'|s)找到最能匹配需求的函數(shù)，如狀態(tài)流函數(shù) F(s)或轉(zhuǎn)移概率函數(shù) P(s→s' |s)，這些可能不符合 proper flow。因此，他們將這類學(xué)習(xí)機器稱為 Generative Flow Networks（簡稱為 GFlowNets）。

GFlowNets 的定義如下：

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

需要注意的是，GFlowNet 的狀態(tài)空間（state-space）可以輕松修改以適應(yīng)底層狀態(tài)空間，其中轉(zhuǎn)換（transition）不會形成有向無環(huán)圖（directed acyclic graph, DAG）。

對于從終端流（Terminal Flow）估計轉(zhuǎn)換概率，在 Bengio et al. (2021)的設(shè)置中，研究者得到了與「作為狀態(tài)確定性函數(shù)的終端獎勵函數(shù) R 」相對應(yīng)的終端流：

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

這樣一來就可以擴展框架并以各種方式處理隨機獎勵。

GFlowNets 可以作為 MCMC Sampling 的替代方案。GFlowNet 方法分攤前期計算以訓(xùn)練生成器，為每個新樣本產(chǎn)生非常有效的計算（構(gòu)建單個配置，不需要鏈）。

流匹配和詳細的平衡損失。為了訓(xùn)練 GFlowNet，研究者需要構(gòu)建一個訓(xùn)練流程，該流程可以隱式地強制執(zhí)行約束和偏好。他們將流匹配（flow-matching）或細致平衡條件（detailed balance condition）轉(zhuǎn)換為可用的損失函數(shù)。

對于獎勵函數(shù)，研究者考慮了「獎勵是隨機而不是狀態(tài)確定性函數(shù)」的設(shè)置。如果有一個像公式 44 中的獎勵匹配損失，則終端流 F(s→s_f)的有效目標是預(yù)期獎勵 E_R[R(s)，因為這是給定 s 時最小化 R(s)上預(yù)期損失的值。

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

如果有一個像公式 43 中的獎勵匹配損失，終端流 log F(s→s_f)的 log 有效目標是 log-reward E_R[log R(s)]的預(yù)期值。這表明了使用獎勵匹配損失時，GFlowNets 可以泛化至匹配隨機獎勵。

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

此外，GFlowNets 可以像離線強化學(xué)習(xí)一樣離線訓(xùn)練。對于 GFlowNets 中的直接信用分配（Direct Credit Assignment），研究者認為可以將使用 GFlowNet 采樣軌跡的過程等同于在隨機循環(huán)神經(jīng)網(wǎng)絡(luò)中采樣狀態(tài)序列。讓事情變得更復(fù)雜的原因有兩個，其一這類神經(jīng)網(wǎng)絡(luò)不直接輸出與某個目標匹配的預(yù)測，其二狀態(tài)可能是離散（或者離散和連續(xù)共存）的。

條件流和自由能

本章主要介紹了條件流（Conditional flows）和自由能（Free energies）。

流的一個顯著特性是：如果滿足細致平衡或流匹配條件，則可以從初始狀態(tài)流 F(s_0) 恢復(fù)歸一化常數(shù) Z（推論 3）。Z 還提供了與指定了終端轉(zhuǎn)換流的給定終端獎勵函數(shù) R 相關(guān)聯(lián)的配分函數(shù)（partition function）。下圖展示了如何條件化 GFlowNet，給定狀態(tài) s，考慮通過原始流（左）和轉(zhuǎn)移流來創(chuàng)建一組新的流（右）。

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

自由能是與能量函數(shù)相關(guān)的邊緣化操作（即對大量項求和）的通用公式。研究者發(fā)現(xiàn)對自由能的估計為有趣的應(yīng)用打開了大門，以往成本高昂的馬爾可夫鏈蒙特卡洛（Markov chain Monte Carlo, MCMC）通常是主要方法。

自由能 F(s)的狀態(tài)定義如下：

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

如何估計自由能呢？讓我們考慮條件式 GFlowNet 的一種特殊情況，它允許網(wǎng)絡(luò)估計自由能 F(s)。為此，研究者提議訓(xùn)練一個條件式 GFlowNet，其中條件輸入 x 是軌跡中較早的狀態(tài) s。

狀態(tài)條件式 GFlowNet 的定義如下，并且將 F(s|s)定義為 conditional state self-flow。

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

研究者表示，使用 GFlowNet 可以訓(xùn)練基于能量的模型。具體地，GFlowNet 被訓(xùn)練用于將能量函數(shù)轉(zhuǎn)換為逼近對應(yīng)的采樣器。因此，GFlowNet 可以用作 MCMC 采樣的替代方法。

此外，GFlowNet 還可用于主動學(xué)習(xí)。Bengio et al. (2021)使用的主動學(xué)習(xí)方案中，GFlowNet 被用于對候選 x 進行采樣，其中研究者預(yù)計獎勵 R(x)通常很大，這是因為 GFlowNet 與 R(x)成比例地采樣。

多流、分布式 GFlowNets、無監(jiān)督 GFlowNets 和帕累托 GFlowNets

與分布式強化學(xué)習(xí)類似，非常有趣的一點是，泛化 GFlowNets 不僅可以捕獲可實現(xiàn)的最終獎勵的預(yù)期值，還能得到其他分布式統(tǒng)計數(shù)據(jù)。更一般地講，GFlowNets 可以被想象成一個族（family），其中每一個都可以在自身流中對感興趣的特定的未來環(huán)境結(jié)果進行建模。

下圖為以結(jié)果為條件的（outcome-conditioned）GFlowNet 的定義：

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

在實踐中，GFlowNet 永遠無法完美地訓(xùn)練完成，因此應(yīng)當將這種以結(jié)果為條件的 GFlowNet 與強化學(xué)習(xí)中以目標為條件的策略或者獎勵條件顛倒的強化學(xué)習(xí)（upside-down RL）同等看待。未來更是可以將這些以結(jié)果為條件的 GFlowNets 擴展到隨機獎勵或隨機環(huán)境中。

此外，訓(xùn)練一個以結(jié)果為條件的 GFlowNet 只能離線完成，因為條件輸入（如最終返回）可能只有在軌跡被采樣后才能知道。

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

論文的完整目錄如下：

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

70頁論文，圖靈獎得主Yoshua Bengio：生成流網(wǎng)絡(luò)拓展深度學(xué)習(xí)領(lǐng)域

責(zé)任編輯：張燕妮來源：機器之心Pro

深度學(xué)習(xí)編程人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：日本一级淫片免费啪啪3 | 午夜伦4480yy私人影院 | 国产电影精品久久 | aaa综合国产| 国产精品日韩欧美一区二区三区 | 伊人久久综合影院 | 伊人精品久久久久77777 | 成人a网 | 亚洲人久久| 粉嫩一区二区三区国产精品 | 久久久久国产一区二区三区 | 91麻豆精品国产91久久久久久久久 | 亚洲最大看片网站 | 手机看片1 | 一区二区三区免费 | 国产一区二区在线免费视频 | 国产精品视频97 | 精品国产免费人成在线观看 | 欧美精品日韩精品国产精品 | 91成人免费观看 | 国产精品一区三区 | 一区二区三区四区视频 | 日本三级全黄三级a | 国产精品99久久久久久宅男 | 国产精品一区二区三区四区 | 天天操天天舔 | 成人网在线 | 久久99精品久久久久久 | 在线免费观看日本 | 欧美888 | 久久久久九九九女人毛片 | 中文字幕在线播放不卡 | 看片网站在线 | 成人在线一区二区 | 精品久久久久久亚洲综合网 | 97久久精品午夜一区二区 | 成人高清视频在线观看 | 亚洲免费视频一区 | 精品一区二区三区免费视频 | 97精品一区二区 | 国产精品一二三区 |

<sup id="6ysw0"><pre id="6ysw0"></pre></sup>

<pre id="6ysw0"><sup id="6ysw0"></sup></pre>