成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用人工智能幻覺評估圖像真實感? 原創

發布于 2025-4-9 08:18
瀏覽
0收藏

本文提出了一種使用人工智能幻覺來評估圖像真實感的新方法,對此方法的實現原理進行詳細闡述,并給出詳細的實驗結果證明。

引言

最近,俄羅斯的一項新研究提出了通過一種非常規方法來檢測不切實際的人工智能生成的圖像。這種方法的主要思想是:不是通過提高大型視覺語言模型(LVLM)的準確性,而是通過有意利用它們??產生幻覺的傾向??。?

這種新方法使用LVLM提取有關圖像的多個“原子事實”,然后應用??自然語言推理??(NLI)系統地衡量這些陳述之間的矛盾,從而有效地將模型的缺陷轉化為檢測違背常識的圖像的診斷工具。?

使用人工智能幻覺評估圖像真實感?-AI.x社區

WHOOPS!數據集中的兩幅圖像以及LVLM模型自動生成的語句(左側圖像非常逼真,因此可以產生一致的描述,而右側圖像則不同尋常,導致模型產生幻覺,產生矛盾或錯誤的語句。圖片來源:https://arxiv.org/pdf/2503.15948)

當被要求評估第二幅圖像的真實度時,LVLM發現有些不對勁,因為所描繪的駱駝有三個駝峰,這在??自然界中是未知的??

然而,LVLM最初將大于2個駝峰與大于2只動物混為一談,因為這是你在一張“駱駝圖片”中看到三個駝峰的唯一方式。然后,它繼續產生幻覺,產生比三個駝峰更不可能的東西(即“兩個頭”),并且從未詳細描述似乎引發其懷疑的內容——不太可能的額外駝峰。

這項新研究的研究人員發現,LVLM模型可以原生地執行此類評估,并且與針對此類任務進行??微調???的模型相當(甚至更好)。由于微調復雜、昂貴且在下游適用性方面相當脆弱;因此,他們發現當前AI革命中??最大的障礙??之一的原生用途是對文獻中總體趨勢的一次令人耳目一新的轉變。?

開放式評估

作者斷言,上述方法的重要性在于它可以與開源框架一起部署。雖然像ChatGPT這樣的先進且高投資的模型(該論文承認)可能在這項任務中提供更好的結果,但對于我們大多數人(尤其是業余愛好者和VFX社區)來說,該文獻的真正價值在于有可能在本地實現中融入和開發新的突破;相反,所有注定要用于專有商業API系統的產品都可能被撤回、任意漲價和經受審查——這些審查政策更有可能反映公司的企業關切,而不是用戶的需求和責任。

??這篇新論文???的標題為《不要對抗幻覺,而要利用它們:使用NLI而非原子事實估計圖像真實性》,該文由來自斯科爾科沃科學技術學院(Skoltech)、莫斯科物理技術學院以及俄羅斯公司MTSAI和AIRI的五名研究人員共同撰寫。該論文還提供了一個相應的??GitHub頁面??。?

研究方法

論文作者們使用以色列/美國??WHOOPS!數據集??研究這個項目:?

使用人工智能幻覺評估圖像真實感?-AI.x社區

WHOOPS!數據集中不可能出現的圖像示例。值得注意的是,這些圖像如何組合合理的元素,并且它們的不可能性必須基于這些不兼容方面的串聯來計算。來源:https://whoops-benchmark.github.io/。

該數據集包含500張合成圖像和超過10,874條注釋,專門用于測試AI模型的常識推理和構圖理解。它是與設計師合作創建的,這些設計師的任務是通過文本到圖像系統(例如Midjourney和DALL-E系列)生成具有挑戰性的圖像——產生難以或不可能自然捕捉的場景:

使用人工智能幻覺評估圖像真實感?-AI.x社區

WHOOPS!數據集中的更多示例。來源:https://huggingface.co/datasets/nlphuji/whoops

他們提出的新方法可劃分為三個階段:首先,LVLM(具體來說是??LLaVA-v1.6-mistral-7b???)被提示生成多個描述圖像的簡單語句(稱為“原子事實”)。這些語句是使用??多樣化集束搜索??生成的,確保輸出的可變性。?

使用人工智能幻覺評估圖像真實感?-AI.x社區

多樣化集束搜索通過優化多樣性增強目標,提供了更多種類的字幕選項(來源:https://arxiv.org/pdf/1610.02424)。

接下來,他們使用自然語言推理模型系統地將每個生成的語句與每個其他語句進行比較,該模型分配的分數反映了語句對是否相互包含、矛盾或中立。

矛盾的話,表明圖像中存在幻覺或不切實際的元素:

使用人工智能幻覺評估圖像真實感?-AI.x社區

實驗中使用的檢測管道的架構

最后,他們將這些成對的NLI分數聚合為單個“現實分數”,以量化生成的語句的整體一致性。

研究人員探索了不同的聚合方法,發現基于聚類的方法效果最佳。他們應用k-means聚類算法將單個NLI分數分成兩個聚類,然后選擇值較低的聚類的質心作為最終指標。

使用兩個聚類直接符合分類任務的二元性質,即區分真實圖像和非真實圖像。其邏輯類似于簡單地選擇總體最低分;然而,聚類允許指標表示多個事實的平均矛盾,而不是依賴于單個異常值。

數據和測試

研究人員使用旋轉??測試分割???(即??交叉驗???)在WHOOPS!基線基準上測試了他們的系統。測試的模型是分割的??BLIP2 FlanT5-XL???和??BLIP2 FlanT5-XXL??,以及零樣本格式的BLIP2 FlanT5-XXL(即無需額外訓練)。?

對于遵循指令的基線,作者用短語“Is this unusual? Please explain briefly with a short sentence(這不尋常嗎?請用一個簡短的句子簡要解釋一下)”提示LVLM,??先前的研究??發現這對發現不切實際的圖像很有效。?

評估的模型是??LLaVA 1.6 Mistral 7B???、??LLaVA 1.6 Vicuna 13B???和兩種大小(7/130億個參數)的??InstructBLIP??。?

測試過程圍繞102對真實和非真實(“怪異”)圖像展開。每對圖像由一張正常圖像和一張違背常理的圖像組成。

三位人類注釋者對圖像進行了標注,達成了92%的共識,表明人類對“怪異”的定義具有高度的認同感。評估方法的準確性是通過正確區分現實和非現實圖像的能力來衡量的。

該系統使用三重交叉驗證進行評估,使用固定種子隨機打亂數據。作者在訓練期間調整了蘊涵分數(邏輯上一致的陳述)和矛盾分數(邏輯上沖突的陳述)的權重,而“中性”分數固定為零。最終準確率計算為所有測試分割的平均值。

使用人工智能幻覺評估圖像真實感?-AI.x社區

對五個生成事實的子集進行不同NLI模型和聚合方法的比較,以準確性作為衡量標準。

對于上面顯示的初步結果,論文指出:

“clust方法脫穎而出,成為表現最佳的方法之一。這意味著,匯總所有矛盾分數至關重要,而不是只關注極端值。此外,最大的NLI模型(nli-deberta-v3-large)在所有聚合方法中的表現優于所有其他模型,這表明它更有效地抓住了問題的本質。”

作者發現,最優權重始終傾向于矛盾而非蘊涵,這表明矛盾對于區分不切實際的圖像更具參考價值。他們的方法優于測試的所有其他零樣本方法,接近經過微調的BLIP2模型的性能:

使用人工智能幻覺評估圖像真實感?-AI.x社區

各種方法在WHOOPS!基準上的表現。微調(ft)方法顯示在頂部,而零樣本(zs)方法列在下面。其中,模型大小表示參數數量,準確率用作評估指標。

他們還指出,在同樣的提示下,InstructBLIP的表現優于同類LLaVA模型,這多少有點出乎意料。在承認GPT-4o的卓越準確性的同時,該論文強調了作者傾向于展示實用的開源解決方案,而且似乎可以合理地宣稱在明確利用幻覺作為診斷工具方面具有新穎性。

結論

作者承認他們的項目得益于2024年??FaithScore??活動,這是德克薩斯大學達拉斯分校和約翰霍普金斯大學合作舉辦的活動。?

使用人工智能幻覺評估圖像真實感?-AI.x社區

FaithScore評估的工作原理說明。首先,識別LVLM生成的答案中的描述性陳述。接下來,將這些陳述分解為單個原子事實。最后,將原子事實與輸入圖像進行比較以驗證其準確性。其中,帶下劃線的文本突出顯示客觀描述內容,而藍色文本表示幻覺陳述,從而使FaithScore能夠提供可解釋的事實正確性衡量標準。來源:https://arxiv.org/pdf/2311.01477。

FaithScore通過驗證與圖像內容的一致性來衡量LVLM生成的描述的忠實度,而新論文中抽出的方法明確利用了LVLM幻覺,通過使用自然語言推理生成的事實中的矛盾來檢測不切實際的圖像。

新成果自然取決于當前語言模型的怪異之處,以及它們產生幻覺的傾向。如果模型開發最終產生一個完全不產生幻覺的模型,那么新成果的一般原理也將不再適用。然而,這仍然是一個充滿挑戰的前景。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:??Using AI Hallucinations to Evaluate Image Realism??作者:Martin Anderson

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-9 08:23:03修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 手机在线观看 | 美女黄视频网站 | 精品三区| 91av视频| 久久婷婷av| 欧美激情视频一区二区三区在线播放 | 久久av综合 | 久久久性色精品国产免费观看 | 久久亚洲一区二区三 | 久久久久久久电影 | 色婷婷av777 av免费网站在线 | 国产无套一区二区三区久久 | 国产精品乱码一区二区三区 | 免费三级黄 | 超碰在线免费 | 国产日韩欧美精品 | 中文字幕视频在线观看免费 | 91麻豆产精品久久久久久夏晴子 | 二区在线观看 | 91极品视频 | 看特级黄色片 | 国产精品久久久久久av公交车 | 免费观看成人鲁鲁鲁鲁鲁视频 | 中文字幕精品一区二区三区精品 | 91视频一区二区 | 成人一级视频在线观看 | 色视频在线免费观看 | 久久国产精品一区二区三区 | 国产精品一区一区三区 | 中文字幕精品视频 | 中文字幕一区二区三区精彩视频 | 精品国产乱码久久久 | 国产成人精品高清久久 | 香蕉视频一区二区 | 精品在线观看一区二区 | 91在线视频播放 | 亚洲欧美在线观看 | 日韩欧美中文字幕在线观看 | 国产三区四区 | 一级黄色片在线免费观看 | 黄色一级大片在线免费看产 |