成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人工智能與人類情感的交匯點:一致性評估方法的探索 精華

發(fā)布于 2024-10-16 16:01
瀏覽
0收藏

近來,人工智能(AI)的迅猛發(fā)展使其在情感生成和評估領域的應用逐漸成為研究熱點。AI技術尤其是生成對抗網絡(GANs)和變分自編碼器(VAEs),在圖像生成方面取得了顯著進展。然而情感生成的復雜性和主觀性一直是一個挑戰(zhàn)。圖像能夠傳達情感,但情感體驗具有高度的個人主觀性,尤其是在通過AI生成圖像并試圖傳達特定情感時。

10 月 13 日arXiv 發(fā)表的論文《LEVEL OF AGREEMENT BETWEEN EMOTIONS GENERATED BY ARTIFICIAL INTELLIGENCE AND HUMAN EVALUATION: A METHODOLOGICAL PROPOSAL》提出核心問題在于評估人工智能生成的情緒與人類評估之間的一致性。具體而言,研究團隊旨在探討在生成性人工智能工具(如StyleGAN2-ADA)生成圖像的過程中,這些圖像所傳達的情感與人類對這些圖像的情感反應之間是否存在顯著的一致性。這一問題的解決不僅可以驗證AI生成圖像的情感傳達效果,還可以為未來的AI情感生成和評估提供方法論依據。

研究的目標包括訓練生成性人工智能模型,通過Artemis數據集生成具有特定情感的風景圖像,并通過在線問卷收集人類對這些圖像的情感分類數據。隨后通過統計分析評估人類評估者之間、評估者與AI生成情感之間的一致性。這些分析將有助于深入了解AI生成情感的可靠性,并探索情感評估中的主觀性因素。

研究團隊由來自智利和西班牙的學者組成,他們分別在各自領域內具有豐富的經驗和知識。Miguel Carrasco和Raúl Dastres分別來自智利圣地亞哥的Adolfo Iba?ez大學工學院與科學學院,César González-Martín和Sonia Navajas-Torrente則分別來自西班牙科爾多瓦大學的教育科學與心理學學院、法學經濟與商業(yè)學院。這樣一個多學科的團隊能夠從多個角度全面地研究和分析人工智能在情感生成和評估中的應用。

他們的核心觀點:

  1. 藝術作品能夠傳達情感,但這種情感體驗具有高度的主觀性。
  2. 人工智能在藝術創(chuàng)作領域取得了顯著進展,特別是 StyleGAN2-ADA 在生成藝術作品方面的表現。
  3. 在情感分類上,人類評價者之間的一致性有限,這反映了情感評價的主觀性。
  4. AI 生成的畫作在二分類的情感認知上與人類評價者的一致性較好,特別是在識別負面情感時。
  5. 情感認知的一致性受到多種因素的影響,包括評價者的性別、文化背景、知識領域和教育水平。
  6. 研究提出了改進 AI 情感認知能力的未來方向,包括擴大數據集、多樣化評價者群體以及深入研究影響情感分類的視覺元素。
  7. AI 在藝術創(chuàng)作中的應用 still faces challenges,尤其是在準確識別和生成情感化內容方面。
  8. 統計分析是評估 AI 情感認知能力的關鍵工具,研究使用了多種統計方法來分析數據。

文獻綜述

在情感生成的理論背景中,圖像被認為是一種強有力的情感傳達工具。視覺藝術一直以來都通過顏色、形狀、紋理等元素來喚起觀眾的情感共鳴。隨著AI技術的發(fā)展,研究人員探索了如何通過計算模型實現這種情感傳達。StyleGAN2-ADA是其中一項重要的技術突破,它利用生成對抗網絡生成高質量的藝術圖像,并能夠通過調整模型參數來傳達特定的情感。該技術的靈活性和生成圖像的真實性使其成為研究AI情感生成的重要工具。

然而,情感分類的復雜性和主觀性仍然是研究中的重大挑戰(zhàn)。情感體驗因人而異,不同個體對同一視覺刺激可能有完全不同的情感反應。情感分類模型的設計需要考慮這一主觀性因素。目前,情感分類的方法主要分為離散情感模型和多維情感模型。離散情感模型,如Ekman的基礎情感理論,將情感分類為幾種基本類型,如快樂、憤怒、悲傷等。多維情感模型,如Russell的情感圓環(huán)理論,則通過情感的愉悅度、激活度等維度來描述情感狀態(tài)。這些模型各有優(yōu)缺點,離散模型在實際應用中更具直觀性,但難以涵蓋復雜的情感體驗;多維模型能夠更細致地描述情感狀態(tài),但在實際應用中較難操作。

在情感生成和評估的研究中,主觀性始終是需要克服的難題。不同個體的文化背景、生活經歷、社會環(huán)境等因素都會影響其情感反應。因此,研究人員在設計情感分類和生成模型時需要充分考慮這些因素,并通過廣泛的樣本數據和多樣化的評估方法來提高模型的泛化能力和準確性。通過不斷優(yōu)化和調整模型參數,結合多種情感分類方法,研究人員希望能夠在情感生成和評估中取得更高的一致性和準確性。

這篇論文通過對StyleGAN2-ADA生成圖像與人類評估的一致性研究,揭示了情感生成技術的潛力和面臨的挑戰(zhàn)。研究結果不僅驗證了AI生成情感圖像的有效性,還為未來的情感生成和評估研究提供了寶貴的參考。

研究方法

通過系統而詳細的方法介紹,研究團隊展示了他們在數據選擇、預處理、圖像生成及人類評估過程中的縝密設計和嚴謹分析。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖1:生成神經產生的情緒評估過程的總體方案。該方法包括三個階段:數據準備、建模和評估。

首先,數據準備階段是整個研究的基礎。研究團隊選擇了Artemis數據集和WikiArt數據集作為基礎數據源。Artemis數據集由WikiArt數據集中獲取的80,031條記錄組成,每條記錄包含藝術作品的藝術風格、作品本身、注釋者聲明的情感、注釋者的解釋以及參與注釋的注釋者數量。研究團隊將重點放在與風景類別相關的記錄上,這是因為風景類圖像在情感傳達中具有更普遍的理解度和接受度。接著,數據預處理是關鍵一步。研究團隊必須確保每一條記錄的情感標簽準確無誤,并篩除掉那些沒有主要情感的記錄,以減少數據的噪音和干擾。最終研究團隊篩選出了9,750條有效記錄,為后續(xù)的圖像生成和情感分類奠定了堅實的基礎。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖2:生成網絡生成的情緒評估方法。在每個階段,都有多個子階段專門用于圖像開發(fā)和評估。

接下來是圖像生成與情感變體的設計。研究團隊選擇了StyleGAN2-ADA作為主要工具。StyleGAN2-ADA是一種基于生成對抗網絡(GANs)的圖像生成工具,能夠生成高質量且真實感極強的圖像。為了生成符合研究需求的圖像,研究團隊首先對風景圖像進行了預處理,將其大小調整為256x256像素,以確保與神經網絡的訓練過程相兼容。在生成過程中,研究團隊生成了20幅基礎風景圖像,并為每幅圖像創(chuàng)建了四種情感變體,分別為滿足、娛樂、恐懼和悲傷。這一過程不僅需要高度的技術支持,還需對情感表達的深刻理解和細致調整,確保每幅圖像都能準確傳達特定情感。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖3:StyleGAN2 ADA工具生成的藝術作品示例基于具有四個情感類別的景觀數據集。所有圖像都是全新的,訓練集中沒有類似的圖像。

在人類評估階段,研究團隊設計并實施了一個詳細的在線問卷。問卷通過Google表單平臺發(fā)布,旨在收集參與者對生成圖像的情感分類數據。為了確保數據的廣泛性和多樣性,問卷在2023年10月30日至11月30日期間開放。參與者需為每幅隨機順序呈現的風景圖像選擇一個情感類別(滿足、娛樂、恐懼、悲傷)。參與者的平均年齡為30歲,其中包括33名男性和28名女性,主要來自工程技術和社會科學領域,70%的參與者具有研究生或更高學歷。這些人口統計數據的收集和分析,不僅為研究提供了豐富的數據來源,也確保了結果的代表性和可靠性。整個研究方法的設計和實施展示了研究團隊在數據選擇、預處理、圖像生成以及人類評估方面的專業(yè)能力和科學嚴謹。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖4:研究參與者的社會人口學數據:箱線圖年齡、性別男性、女性、國家、研究地區(qū)、獲得的最高研究水平。關于研究中使用的分組的更多信息將在結果部分進行回顧。

研究團隊將生成工具創(chuàng)建圖像的標簽作為參考,并將其與參與者的主要分類,即模式進行比較。因此,研究團隊根據Eser和Aksu的一項研究中使用多個一致性指數的建議,使用Cohen的Kappa系數Cohen來評估兩個評估者之間的一致性(AI模式)。與上一節(jié)中使用的Krippendorff的Alpha系數不同,Cohen的kappa系數只允許兩個評估者之間進行分析,因此在這種情況下,他們將使用生成工具生成圖像所使用的模式和情感標簽。通過這種方式,可以確定每張圖像-評估者和生成工具之間的一致性或一致性水平(見圖5中的過程示例)。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖5:mode和StyleGAN2 ADA工具之間的評估過程和協議。每個人對每張圖片進行投票。然后為每個圖像計算模式,以獲得每個圖像的代表性情感,并將其與生成工具生成的情感標簽進行比較。

另一方面,他們在這種新方法中提出了使用混淆矩陣,混淆矩陣通常用于評估分類模型的性能。該過程的目的是將參與者在圖像問卷中進行的分類與生成工具分配的標簽進行比較,將其分為四種情緒。為了構建混淆矩陣,他們將真實類定義為由生成工具生成的類,將預測類定義為參與者的分類模式。還計算混淆矩陣的精確度、召回率和F1分數度量,以確定所獲得的預測水平,就像它是一個分類問題一樣。通過Fisher檢驗,研究團隊使用性別(男女)、知識領域(工程和技術-社會科學)和教育水平(本科-研究生)作為細分變量,比較了不同群體從混淆矩陣中獲得的精確度和召回率指標。他們選擇比較這些群體,因為他們占受訪者的大多數,為分析提供了一個具有代表性的樣本。此外利用Jaccard指數,可以確定不同數據集之間暴露結果之間的交叉程度。

結果與分析

在本研究中,結果與分析部分重點探討了評估者之間的一致性以及參與者與AI生成情感之間的一致性,通過使用不同的統計方法進行了詳細分析。

首先,評估者之間的一致性是通過Krippendorff’s Alpha系數進行分析的。Krippendorff’s Alpha系數是一種用于評估多個評估者之間一致性的統計指標。在情感分類的過程中,不同評估者對同一圖像的情感評估可能會有差異。分析結果顯示,當情感分類為四種類別(滿足、娛樂、恐懼、悲傷)時,評估者之間的一致性較低。這表明,情感評估具有高度的主觀性,不同個體對同一圖像可能產生不同的情感反應。然而,當情感分類簡化為兩類(正面和負面)時,評估者之間的一致性顯著提高。這一結果反映了情感評估中的復雜性和多樣性,同時也表明,簡化的情感分類可能更容易達成共識。

人工智能與人類情感的交匯點:一致性評估方法的探索-AI.x社區(qū)

圖6:與Jaccard的女性指數一致的百分比低于75%。

在參與者與AI生成情感的一致性分析中,研究團隊使用了Cohen’s Kappa系數和Jaccard指數。Cohen’s Kappa系數用于評估兩個評估者(在本研究中為參與者和AI生成的情感標簽)之間的一致性。Jaccard指數則用于衡量兩個集合之間的相似性,即參與者選擇的情感標簽與AI生成的情感標簽之間的重合程度。分析結果顯示,當情感分類為正面和負面時,參與者與AI之間的一致性較高,這與評估者之間的一致性結果一致。然而,當情感分類為四類時,一致性顯著降低。這表明,雖然AI在生成圖像時能夠傳達特定情感,但人類在評估這些情感時仍然存在較大的主觀差異。

值得注意的是,在分析正負情感分類與四類情感分類的一致性差異時,研究發(fā)現,負面情感的分類一致性普遍高于正面情感。具體而言,參與者在評估負面情感(如恐懼和悲傷)時,與AI生成的情感標簽一致性較高,而在評估正面情感(如滿足和娛樂)時,一致性較低。這一發(fā)現可能反映出負面情感在視覺傳達中的直觀性更強,或者說負面情感更容易被不同個體一致識別。

通過這些分析,研究不僅揭示了AI生成情感與人類評估之間的一致性情況,還強調了情感評估中的主觀性挑戰(zhàn)。未來的研究可以進一步探討如何提高正面情感的分類一致性,優(yōu)化AI生成情感的準確性和表現力。此外,增加評估者樣本的多樣性,以及結合更多的圖像和情感類型,也將有助于更全面地理解和解決這一復雜問題。

討論

在這篇論文中,研究團隊探索了人工智能生成的情感與人類評估之間的一致性,揭示了情感分類中的諸多挑戰(zhàn)。特別是負面情感分類的一致性結果,展示了AI在傳達特定情感方面的潛力和局限性。我們重點討論這些發(fā)現,并分析情感分類中存在的主觀性因素。

研究發(fā)現,負面情感(如恐懼和悲傷)的分類一致性普遍高于正面情感(如滿足和娛樂)。這一現象可能有多方面的原因。首先,負面情感在視覺傳達中的直觀性較強,人類對負面情感的識別往往更迅速、更明確。負面情感通常伴隨著強烈的生理反應,如驚恐、悲傷等,這些反應在視覺上容易捕捉和表達。因此參與者在面對負面情感圖像時,能夠更一致地識別和分類。

另一方面,正面情感的表達和識別則相對復雜。這可能是因為正面情感的表現形式更多樣,不同個體對正面情感的體驗和表達也存在差異。例如,滿足和娛樂這兩種情感之間的界限在某些情況下可能會模糊,人類在分類時容易受到自身情感體驗的影響。此外,正面情感的視覺特征可能不如負面情感那樣鮮明,從而增加了分類的難度和主觀性。

情感分類中的主觀性還受到多種因素的影響。文化背景、生活經歷、社會環(huán)境等都會對個體的情感反應產生影響。在本研究中,盡管參與者來自不同國家、擁有不同的教育背景和知識領域,但樣本規(guī)模和多樣性仍然存在局限性。例如,大多數參與者來自工程技術和社會科學領域,且70%具有研究生或更高學歷,這一特征可能影響了研究結果的代表性和廣泛性。

研究的局限性主要體現在樣本規(guī)模和評估者多樣性方面。樣本規(guī)模較小,且評估者主要集中在某些特定領域,限制了研究結果的泛化性。為了在未來研究中獲得更具代表性的結果,研究團隊建議擴大樣本規(guī)模,納入更多不同背景、年齡層和領域的參與者。此外當前研究僅限于風景圖像,缺乏多樣化的視覺元素,未來可以結合更多類型的圖像,如人臉、情境圖等,以更全面地評估AI生成情感的準確性和一致性。

未來的研究方向還包括進一步優(yōu)化情感生成模型,提高正面情感的分類一致性。例如,研究可以探索結合多種情感分類方法,利用深度學習和大數據技術,不斷調整和優(yōu)化模型參數,以增強AI在情感傳達中的表現力。此外,研究團隊還建議深入分析影響情感分類決策的關鍵視覺元素,如顏色、形狀、紋理等,探索這些元素在情感表達中的作用,為未來的情感計算提供更豐富的理論支持。

通過這些改進和擴展,研究可以進一步推動AI在情感生成和評估領域的發(fā)展,使其在實際應用中能夠更加有效地傳達和識別情感,滿足不同情境下的需求。這將為AI技術在情感計算、心理學、教育、醫(yī)療等領域的應用帶來新的機遇和挑戰(zhàn)。(END)

參考資料:???https://arxiv.org/abs/2410.08332??

本文轉載自 ??大噬元獸??,作者: FlerkenS



收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日本电影韩国电影免费观看 | 美女天堂av| 一本久久a久久精品亚洲 | 欧美日韩在线视频观看 | 国产精品久久久久免费 | 欧美一级在线观看 | 天天综合天天 | 国产成人精品久久二区二区 | 欧美日韩在线一区二区 | 国产视频一视频二 | 日韩精品在线播放 | 久久成人一区 | 国产成人jvid在线播放 | 欧美中文字幕 | 久久com | 亚洲男人天堂网 | 91精品久久久久久久久中文字幕 | 国产视频久久 | 久久成人免费 | 亚洲人人| 亚洲91视频 | 国产精品美女久久久久久不卡 | 手机看片在线播放 | 国产这里只有精品 | 亚洲成人久久久 | 亚洲国产中文字幕 | 精品久久久久久亚洲精品 | 一区二区三区国产精品 | 2018天天干天天操 | 免费不卡av | 欧美一区二区在线 | 欧美激情精品久久久久久免费 | 国产精品美女久久久久久久网站 | 成年人免费看的视频 | 国产一区二区三区四区 | 欧美性吧| 美女国产精品 | 国产高清在线精品一区二区三区 | 狠狠干天天干 | 一区二区三区在线播放 | 精品不卡 |