成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌復用30年前經典算法,CV引入強化學習,網友:視覺RLHF要來了?

人工智能 新聞
模型預測和預期使用之間存在錯位,不利于 CV 模型的部署,來自谷歌等機構的研究者用強化學習技術的獎勵函數,從而改善了計算機視覺任務。

ChatGPT 的火爆有目共睹,而對于支撐其成功背后的技術,監督式的指令微調以及基于人類反饋的強化學習至關重要。這些技術也在逐漸擴展到其他 AI 領域,包括計算機視覺(CV)。?

我們知道,在處理計算機視覺中的復雜輸出時,成功的主要標準不在于模型對訓練目標的優化程度,而在于預測能力與任務的吻合程度,即模型在預期用途上的表現效果。

為了追求這種一致性,有研究者在模型架構、數據、優化、采樣、后處理等方面進行了一些改進。例如,在物體檢測任務中,研究人員使用了 NMS(non-maximum suppression )、基于集合的全局損失(set-based global loss)以及改變輸入數據來獲得在測試時具有改進行為的模型。雖然這些方法帶來了顯著的收益,但它們往往只對特定任務有用,僅僅是間接地對任務風險進行了優化。?

不僅 CV,包括自然語言處理(NLP)、強化學習(RL)等領域也在廣泛研究這一現象。在這些領域中,對于目標不太明確的任務,如翻譯或生成摘要,制定優化目標非常困難。在處理這類問題時,一種流行的方法是學習模仿例子的輸出,然后進行強化學習,使模型與獎勵函數保持一致。使用這種方法,NLP 領域產生了令人興奮的結果,該方法使用大型預訓練語言模型和由人類反饋定義的獎勵來處理原本難以指定的任務。

此外,同樣的方法被廣泛用于圖像字幕任務中,其中 CIDEr(Vedantam 等人 2015 年提出)被用來作為獎勵。盡管如此,據了解,獎勵優化以前還沒有在(非文本)計算機視覺任務中進行過探索。

近日,谷歌大腦團隊的研究者在論文《Tuning computer vision models with task rewards》中證明了,使用 REINFORCE 算法(Williams 于 1992 提出)來調整(Tuning)具有獎勵函數的預訓練模型可以開箱即用地用于各種計算機視覺任務

其實許多關于強化學習任務的研究都會提及 Williams 的 REINFORCE 算法,可見這個算法的重要性。可以說 REINFORCE 算法是策略梯度乃至強化學習的典型代表。

論文地址:https://arxiv.org/pdf/2302.08242v1.pdf?

圖 1 展示了一些關鍵結果,主要包括目標檢測、全景分割和圖像著色的獎勵優化帶來的定量和定性改進。該研究所提出的方法在處理各種 CV 任務上簡單而有效,證明了它的多功能性和適應性。盡管本文主要采用評估指標形式的獎勵,但這些初步結果顯示了該方法用來優化計算機視覺模型也不失為一種有效途徑,這些模型具有更復雜和更難指定的獎勵,例如人的反饋或整體系統性能。

圖片

推特網友對這篇文章給了一個比較全面的總結,即本文實現的功能是使用 RL 調整預訓練視覺模型。研究的動因是受到 LLM 強化學習成功的啟發;其效果是在目標檢測、全景分割等方面性能大幅提升。并表示,這項研究可能是實現視覺 RLHF (Reinforcement Learning from Human Feedback)的有效途徑。

圖片

圖源:https://twitter.com/johnjnay/status/1627009121378598912

獎勵?

在不喪失泛化性的情況下,該研究將 CV 任務描述為學習一個函數的過程,該函數將輸入 x(即圖像)映射到輸出 y = [y_1, y_1,……, y_n](文本 token 序列、bounding box 序列等)。該研究旨在學習以 θ 為參數的條件分布 P (y|x, θ),使獎勵函數 R 最大化。用抽象的公式來形容,就是本文要解決以下優化問題。

圖片

問題有了,接下來就是怎么解決了,本文分兩步走:首先用最大似然估計對模型進行預訓練;然后使用 REINFORCE 算法對模型進行 Tuning 。下面我們看看這兩步的具體過程:

最大似然預訓練?

首先使用最大似然原理估計參數 θ 并捕獲訓練數據的分布。實現這一目標可采用梯度下降算法,該算法通過最大化訓練數據的 log-likelihood

圖片來實現。算法 1 和圖 2 描述了 MLE(最大似然估計)優化步驟,這是訓練模型最常用的方法。完成這一步將得到 MLE 模型。

圖片

REINFORC 算法將獎勵最大化 ?

為了更好的優化 MLE 模型以適應任務風險,還需要最大化獎勵函數。對于給定輸入 x,該研究利用 REINFORCE 算法來估計對給定 x 期望獎勵的梯度,公式如下所述:

圖片

算法 2 提供了偽代碼,圖 3 說明了該過程:

圖片


圖片

實驗結果

接下來我們看看本文提出的方法在視覺任務上的表現。

全景分割

如下表 1 所示,Tuning 過程顯著改善了 MLE 模型。視覺檢查(visual inspection)后的結果表明,Tuning 后的模型在避免不連貫預測方面更好,特別是對于小尺度物體,可參見圖 1。

圖片

目標檢測

表 2 顯示,通過優化,該研究將原始 MLE 模型的 mAP 分數從 39.2% 大幅提高到 54.3%。在 Pix2seq 中,具有稍大的 1333×1333 分辨率和許多啟發式的相同大小的 ViT-B 模型達到了 47.1%。當使用更大的 ViT-L 主干時,Pix2seq 報告的最佳目標檢測結果為 50.0%。

圖片

上色?

圖 4 給出的定性結果清楚地表明,新模型始終能產生更豐富多彩的圖像。

圖片

圖像描述

圖片

表 3 結果表明,應用所提出的方法可以改進 MLE 模型,這與先前文獻中的觀察結果一致,證明了該方法針對特定任務風險進行 tuning 的有效性。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-09 14:51:00

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2024-07-22 08:22:00

2025-05-15 09:04:00

2018-08-29 08:13:22

Google 學習框架技術

2024-08-06 14:07:40

2023-06-25 11:30:47

可視化

2024-12-23 14:40:00

AI模型訓練

2023-02-27 13:57:43

ChatGPTAI繪畫

2021-04-29 14:53:14

谷歌強化學習開發

2020-01-23 15:33:07

AI 數據人工智能

2022-11-02 14:02:02

強化學習訓練

2025-04-18 10:01:41

2024-03-19 00:15:00

機器學習強化學習人工智能

2023-08-05 12:50:18

AI技術

2024-08-09 12:46:04

2021-01-28 16:58:12

數字貨幣加密貨幣區塊鏈

2020-02-21 15:33:44

人工智能機器學習技術

2024-10-12 17:14:12

2022-12-21 17:27:30

強化學習AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕日韩欧美一区二区三区 | 国产美女永久免费无遮挡 | 亚洲成人一级片 | 国产精品日韩在线观看 | 玖玖综合网| 精品成人免费一区二区在线播放 | 自拍偷拍第一页 | 国产亚洲精品久久久优势 | 久久国产精99精产国高潮 | 日韩在线视频一区二区三区 | 中文字幕 在线观看 | 天堂av在线影院 | 欧美日韩国产一区二区三区不卡 | 国产精品免费一区二区三区四区 | 精品亚洲一区二区 | 亚洲精品乱码久久久久久蜜桃91 | 国产一区中文字幕 | 国产精品国产a级 | 日韩av成人 | 久久久一区二区三区 | 99热视| 在线伊人网 | 亚洲精品久久久一区二区三区 | 久久99深爱久久99精品 | 亚洲不卡在线观看 | 日韩视频精品在线 | 天天拍天天色 | 国产一区二区精品在线观看 | av在线电影网站 | 奇米影视在线 | 9191成人精品久久 | 天天夜夜人人 | 日韩高清一区 | 国产精品久久久久久久久久 | 亚洲精品二区 | 欧美日韩国产精品一区 | 精品一区在线 | 麻豆亚洲 | 99爱免费 | 欧美日韩专区 | 国产精品一区二区三区免费观看 |