成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

主動學習以及樣本不均衡在圖數據場景的探索

大數據
本次分享為圖數據場景上的主動學習以及樣本不均衡方面的一些探索,主要圍繞風控場景里的一些相關的問題進行介紹。

一、問題背景

首先和大家簡單介紹一下圖問題的背景。

圖片

圖這種數據形式在我們的生活中無處不在。從宇宙的角度來看,太陽、地球和月亮之間的關系可以被建模成一個圖;從生物的角度來看,微觀級別的分子之間的相互關系也可以被視作一種微觀的圖關系;在日常生活場景中,已經有許多探索分析是基于社交網絡的圖數據進行的;而在風控場景中,用戶交易網絡實際上也可以被建模成一個圖結構的數據,從而進行相關的分析。

圖片

接下來將對風控場景下的圖問題進行介紹。近年來,關于如何利用圖數據進行分析和建模以控制風險的問題引起了廣泛關注,其中一個重要的應用領域是欺詐檢測。許多情況下,我們可以將欺詐檢測建模成一個圖的問題。在這個圖中,涵蓋了各種各樣的節點和相互之間的關系。舉例而言,我們可以探究黑產是否會通過某些鏈路向其他用戶發送欺詐信息,這就涉及到鏈路預測的問題。此外,正如之前提到的,黑產往往是一個群體的行為。因此,我們的分析也需要考慮群體異常檢測,以便識別出這些異常行為,這可以被視為一種社區檢測,即識別出在整個網絡中相互關聯的群體。另一個關鍵領域是用戶風險分析。在這方面,我們關心的問題是如何確定某個特定用戶是否存在風險。這可以被視為對圖中節點進行分類的任務,我們需要判斷每個節點是否屬于“風險用戶”的類別。

圖片

現在我們進一步審視一下。在近幾年里,圖神經網絡已被廣泛應用于風險控制領域的多個問題中,并且取得了顯著的成效。然而,我們也必須認識到,這個方法仍然存在兩個極其重要的問題:

  • 樣本標簽的獲取相當具有挑戰性。這一點可以理解,因為我們大多數時候只能觀察到普通正常用戶的行為,他們出于合法需求注冊并使用平臺。然而,那些從事不正當行為的用戶,比如那些試圖濫用系統的薅羊毛用戶,在總體用戶中所占比例較小。因此,我們能夠獲得的有關這些少數不良用戶的標簽相對較少。這種標簽的稀缺性也導致了另一個問題。
  • 樣本不均衡。由于不良用戶的數量較少,這就造成了不同類別之間樣本數量的不平衡。這種情況會進一步影響模型的訓練和性能。標簽獲取困難以及樣本不均衡問題都會影響模型的效果和穩健性。

接下來,將專注于這兩個問題展開分享和探討。

二、圖數據上的語義感知的主動學習

圖片

在數據樣本稀缺的情況下,我們應該如何應對呢?在深度學習和機器學習領域,我們都了解樣本的重要性。如果我們能夠為大多數樣本提供準確的標簽信息,就能夠更好地學習到分類的決策邊界。這將使得對新用戶進行分類變得更加容易,我們可以輕松地確定他們應該歸入紅色類別還是紫色類別。然而,當數據樣本本身的標簽非常有限時,情況就會變得復雜。在這種情況下,我們可能會陷入困境。因此,標簽信息的可用性至關重要。但是,標簽的獲取卻面臨兩個主要問題:

  • 標簽獲取通常具有挑戰性,這是由于其難以獲取。
  • 標簽獲取也可能非常昂貴。在風控數據等領域,情況并不像在計算機視覺領域那樣普遍。雖然大多數人都可以成為計算機視覺數據的標注員,但是在我們的問題中,數據的標注與業務場景緊密相關。這就導致了數據反饋和收集的周期較長,以及成本較高的問題。

因此,如何利用策略來更快、更好地縮短數據標注的流程,無論是時間還是數量,成為了一個備受關注的焦點。正是在這種背景下,主動學習的概念應運而生。主動學習旨在通過一些策略來更有效地選擇需要標注的樣本,從而加速學習過程,降低標注成本,這是我們接下來將深入探討的內容。

圖片

現在我們來探討一下主動學習的思路。既然我們需要進行一部分數據標注,那么我們肯定希望這些標注能夠提供更多有價值的信息。因此,主動學習著眼于如何對未標注的數據進行巧妙的區分和排序,精選出對模型訓練最有價值的未標注數據,從而訓練出高效準確的模型。這樣的策略可以讓我們在有限的標注資源下,充分發揮數據的信息價值。一種常見的做法是將這些選取出的重要的樣本推薦給專家進行標注。

圖片

在圖像領域中,我們經常會遇到所謂的 valuable samples。通常情況下,我們會使用 uncertainty 這個概念來衡量這些有價值樣本。換句話說:“我是否需要更多的信息來更好地判斷這個樣本是處于邊界附近,還是距離邊界較遠?” 這就引出了我們所稱的 the hardest samples 或者 informative examples 的概念。在圖像領域這種數據獨立同分布的情況下,每張圖片之間都被認為是相互獨立的。因此,我們通常會選擇那些難度較大、不確定性最高的樣本作為有價值樣本。這樣做的目的是為了更好地捕捉樣本的邊界情況,從而更有效地訓練我們的模型。

圖片

然而,圖數據的情況比較特殊。因為圖中的每個節點并不是孤立的,它們之間通過邊相互連接以傳遞信息。不同類別之間也會存在邊緣的連接信息。因此,在這個背景下,業界的研究員和工程師們開始思考,如何在圖數據上應用主動學習。這個問題可以分成兩種方法:

  • 我們在選擇樣本時,不僅會利用模型對樣本進行分類并選擇不確定性最高的樣本,還會考慮圖結構本身的特性。例如,我們會關注節點的度以及中心性等。這些信息與圖的結構緊密相關,會指導我們制定具體的算法。這種方法的一個重點在于,在提高不確定性的同時,也要考慮選取代表性樣本,以增強主動學習在圖數據上的效果。
  • 借鑒社交網絡或圖分析中的關鍵節點發現的思想。舉個例子,我們要思考哪些節點的信息傳播對整個圖的影響最大,還要考慮信息的多樣性,通過引入多樣性來增強模型的穩健性。

然而,我們也注意到了一個問題,即使一個節點具有較高的信息傳播能力,由于圖神經網絡通常會對信息進行聚合和平滑處理,兩個不同類別的節點屬性可能存在差異。因此,簡單地根據信息傳播的影響來選擇樣本可能會導致語義混淆。考慮到這一點,我們提出了一個名為“語義感知的圖主動學習”的解決方案,以應對這種挑戰。

https://arxiv.org/abs/2308.08823。

我們采用了一種通用的主動學習方法,在這個過程中,涵蓋了幾個關鍵步驟:

  • 我們首先需要獲得一些用戶以及他們之間的關聯關系。利用圖神經網絡(例如GNN、GCN)來學習他們的一些基本嵌入信息。基于這些嵌入信息,我們能夠計算節點的影響力。節點的影響力表示的是在整個圖中節點自身的信息變化如何影響到其他節點信息的一種衡量。
  • 此外,我們還希望結合節點的語義信息對其進行修正。我們的目標是,盡管節點可能在結構上具有較大的影響力,但這種影響力應僅體現在與其同類的節點上。通過這些步驟,我們得到了一種正向的影響力衡量方式。利用這個衡量方法,我們可以選擇那些對相同類型的節點產生更大影響的一組數據樣本。隨后,在對這些數據樣本進行標注時,我們可以基于其影響力進行有針對性的標注工作。

圖片

在上述基礎之上,還有一點需要考慮,就是在機器學習中樣本的選擇。我們希望選取的樣本在整個數據中分布在不同的中心位置,以增加更多的不確定性,從而提升模型的穩健性。通常情況下,人們會嘗試通過聚類或計算樣本間的相似性來實現這一點。然而,這些方法的效率可能較低。在此背景下,我們借鑒了“prototype”這一概念。對于選取出的節點樣本,我們計算它們的中心,即計算可直接獲得的中心點。然后,我們對每個樣本計算其與這些中心點之間的距離,通過這種方式,我們能夠快速計算樣本與中心的相似性。我們希望選擇那些距離特定類型中心更遠的樣本,因為這意味著這些樣本可能具有更多的信息量。這樣的選擇方式不僅增加了樣本的不確定性,還提升了模型的穩健性。綜合起來,我們將影響力和不確定性作為評價的指標,計算出分數,從而得到最終的樣本集合。這些樣本集合會被推薦給標注專家進行進一步標注。標注專家將針對這些樣本進行不斷的標注工作,并將反饋信息回饋到模型中。通過幾輪的迭代,我們可以逐步達到預期的效果。以上就是在圖數據上應用主動學習的整體流程。

圖片

我們也在多個不同類型的公開數據集以及我們華為自身金融場景中的交易數據上進行了一些研究探索。從實驗結果來看,我們發現整體效果相較于現有的 SOTA 方法(如基于隨機選擇或節點度量,以及基于不確定性熵的方法等)要更為顯著。在這些實驗中,我們的方法在效果提升方面表現出明顯的優勢。

圖片

通過融合語義信息并采用基于 prototype 多樣性的方法,我們的效果得到了明顯提升。與其他 baseline 模型相比,我們的方法在效果上表現出相對優勢,并且在效率方面也表現出色。僅利用少量的標注樣本,我們就能夠實現更高水平的實際效果。以上我們介紹了在圖數據中應用主動學習,特別是在樣本不足的情況下,探索了借助如何更有效的選擇樣本并借助專家標注的方式來提升學習效果。

三、不均衡圖上的節點標注問題探索

圖片

正如前面所提到的,在風險控制領域,數據的標注相對不足的情況下,例如針對黑產用戶、薅羊毛用戶等,這些正樣本數量本身就非常有限。因此,樣本分布呈現出明顯的不均衡。針對這樣的樣本不均衡問題,我們可以探究以下幾個方面。

圖片


  • 我們可以考慮采取一些樣本平衡的策略。比如,對于數量較少的類型樣本進行過采樣,對于數量較多的樣本進行降采樣,以實現兩類樣本的相對平衡。
  • 我們還可以在損失函數中進行優化,對不同類型的樣本賦予不同的權重。對于樣本數量較少的類型,可以賦予較大的權重,以期在模型學習過程中更加關注這些樣本。

這些方法在處理數據不均衡問題時都具有實際效果,但在圖數據上的拓展則相對復雜。如何在圖數據上處理樣本不均衡問題并不是一件容易的事情。

圖片

從2021年開始,針對樣本不均衡問題,人們開始嘗試各種方法。在采樣方面,有一個經典的方法叫做 SMOTE,即通過函數對少樣本數據進行合成。在圖數據中,需要考慮節點屬性信息以及邊的連接方式。節點屬性信息相對較易合成,但在連接節點時需要思考哪些節點應該與新合成的節點相連。這一問題具有重要意義。在這方面,GraphSMOTE 提供了一個有趣的技術。盡管在實際嘗試時,該方案的計算復雜度相對較高,但它為解決這一問題提供了有價值的嘗試和思路,值得借鑒。

GraphSMOTE 的方法包括以下幾個關鍵步驟。首先,我們需要生成節點屬性。這可以通過獲取原始數據并通過一層或兩層的圖模型(如 GNN )得到不同節點的嵌入來實現。然后,在新的樣本空間中,我們可以進行節點屬性的合成。在合成屬性后,接下來的問題是如何確定邊的連接方式。前面提到過,節點的連接關系可以看作是鏈接預測的問題。因此,我們可以在模型中將鏈接預測作為一項額外的任務,將其融合進模型中。具體做法是隨機地選擇一些現有節點,并判斷新合成的節點與哪些節點連接會對整個模型訓練更有效。因此,GraphSMOTE 的核心思想是將連接預測作為一個額外的任務,并將其納入模型中。最終的損失函數設計包括兩部分,一部分用于改進節點分類效果,另一部分用于確保合成節點的邊連接更加準確。通過這種方式,既能提升節點分類準確性,又能更準確地表示節點屬性。

圖片

還有一些新的研究工作涉及如何根據圖的特性來進行采樣,因為在某些情況下,圖的結構并不適合進行降采樣或過采樣。在這方面,例如 Renode 和 TAM 這兩項研究,它們從節點的結構信息出發,根據分類邊界上的距離以及節點的拓撲信息,設計了如何選擇樣本的方法。然而,需要指出的是,這些工作主要是基于現有的機器學習方法,結合了圖的節點特性,進而調整用于處理樣本不均衡問題的策略。

圖片

然而,在我們進一步探究樣本分類和節點分類問題時,除了處理樣本不均衡的問題外,還存在一類情況:其中一部分節點已經被標注,但大多數節點仍然未標注。這并非典型的樣本不均衡問題,而是純粹的信息不完整問題。因此,我們的出發點非常簡單,我們是否可以采用某種方式為它們打上標簽呢?例如:把那些可能性很大是正樣本(少數類樣本)的節點,我們直接將它們添加到模型中進行訓練。這種思路與自監督學習非常相似。然而,如果直接將現有的自監督學習方法應用于圖問題,實際上會遇到許多問題。特別是在初始階段,標注樣本數量有限,樣本不均衡問題非常嚴重,因此模型效果可能會嚴重下降。基于這一觀察和發現,我們開始考慮是否可以通過利用圖數據本身的特性來提升相應的方法。

圖片

因此,我們提出了一個名為“雙通道信息對齊”的機制,以選擇更具信息價值的節點。在具體實踐中,對于一個新的圖數據,我們旨在通過一個簡單的 GNN 模型進行預訓練,從而獲得不同節點的嵌入表示。通過這些嵌入表示,我們可以同時進行兩種任務:

  • 分類任務:預測節點所屬的類型;
  • 聚類任務:獲得節點應當歸屬于的簇。

我們利用這兩個信息來進行信息的對齊。換句話說,在預測節點任務中,當模型對某節點的類型預測更加 confident 時,我們認為該節點的信息更加可靠。同時,在聚類的角度來看,如果節點距離聚類中心更近,我們也將其視為更加可靠。因此,我們選擇了在幾何和置信度兩方面都較高的節點作為備選節點,從而解決了初始信息不足和樣本不均衡問題,提高了樣本選擇的可靠性。

同時,值得注意的是,對于那些存在于兩個不同社區之間的節點,其信息的不確定性較大。因此,將這些節點引入模型可能會對其產生影響。因此,我們還需要考慮節點的中心性。對于某個節點,我們不僅要考慮其在當前社區中的距離,還要考慮其與其他潛在社區的距離。我們希望選擇那些距離自身中心較近,同時與其他中心較遠的節點。這些節點被視為更具確定性,從而可以作為可信的標簽用于輔助模型訓練。通過這種方式,我們在不改變圖結構的情況下,實現了對少數樣本的良好擴增,從而有效解決了樣本不均衡問題。

四、結論

圖片

我們對不同場景的數據進行了一些實驗和分析。例如,我們運用在諸如 Cora 和 Citeseer 等數據集上,通過一些綜合的方法來調整樣本比例進行了金融分析。在我們的實驗中,我們發現這種方法在不同的不均衡比例場景下都表現出色。盡管文章中只提及了少數實驗,但實際上,我們進行了大量的實驗,證明了通過不同的信息對齊策略,能夠有效解決未標注數據不均衡的節點分類問題,并取得了良好的效果。

圖片

另外對于樣本不均衡問題,一方面,我們進行了自身的樣本采樣,以調整不均衡的比例。另一方面,我們也在一些已有的公開數據集中處理了類別不均衡的情況,例如,我們在 Computer-Random 數據集中遇到了1:25的樣本不均衡比例。我們觀察到,我們的方法在這些情況下同樣也表現出色。同時,類似TAM這樣的方法也是一個可行的選擇,它可以作為一個插件加入到損失函數中,通過根據分類邊界的邊緣來調整樣本權重。這樣的方法可以與其他策略如 Renode 和 GraphEns 相結合。再有,我們也對比了 Re-weight 方法,它在計算機視覺領域被廣泛使用,提供了一個簡單但 strong 的 baseline 。

以上就是我們在風險控制場景中對于樣本不均衡問題所做的一系列探索和調研的工作。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2022-05-06 09:48:56

機器學習樣本不平衡

2017-05-05 09:30:28

機器學習不均衡分類

2015-10-21 13:48:12

機器學習干貨數據

2022-08-12 15:02:31

應用探索

2025-01-15 09:16:10

2022-08-03 15:00:08

機器學習細胞圖像血細胞

2016-09-19 14:52:12

Hadoophdfs磁盤

2022-05-27 18:04:49

技術淘寶

2017-04-11 12:45:29

Python機器學習信用卡欺詐檢測

2024-10-23 20:09:47

2024-10-23 12:46:32

數據飛輪數據應用

2024-06-19 07:45:20

2021-08-11 06:57:16

RocketMQMQ容器

2021-04-21 14:56:28

負載均衡高并發優化技術架構

2019-04-26 12:36:03

2024-07-15 08:59:52

機器學習弱監督建模人工智能

2023-03-10 08:57:31

機器學習電商數據挖掘

2023-03-08 07:16:17

2023-11-14 07:21:44

大數據流式圖計算
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品一区在线 | av中文字幕在线 | 国产婷婷精品av在线 | 国产精品视频999 | 欧美亚洲视频在线观看 | 免费黄色录像视频 | 欧美一级黄色片 | 毛片免费看 | 亚洲视频免费在线观看 | 在线免费观看黄色 | 久久久久久九九九九 | 视频一区二区在线观看 | 久久一区二区三区四区五区 | 亚洲av毛片 | 国产精品99久久久久久宅男 | www.久久 | 亚洲精品大片 | 午夜天堂 | 天天操人人干 | 欧美日韩久 | 美女一区二区在线观看 | 成人在线中文字幕 | 综合久| 日韩二三区 | 日韩国产精品一区二区三区 | 国产精品久久久久不卡 | 99精品久久 | 亚洲一区中文字幕在线观看 | 亚洲综合在线视频 | 91免费在线 | 欧美一级做性受免费大片免费 | 午夜精品久久久久99蜜 | 狠狠干狠狠操 | xxxxx免费视频 | 亚洲成人久久久 | 91极品视频| 青青草一区二区 | 在线第一页 | 精品久久久久久久久久 | 偷拍亚洲色图 | 男女视频免费 |