成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

自然語言處理序列模型——CRF條件隨機場

原創 精選
人工智能 自然語言處理
在之前介紹的概率有向圖模型,如HMM,即貝葉斯網絡,相對應的概率無向圖模型就稱為馬爾可夫網絡或者馬爾可夫隨機場(MRF),本篇文章所介紹的CRF就是馬爾可夫隨機場的一種。

在之前對序列模型中的??HMM(隱馬爾可夫模型)??進行掌握以后,有必要對另外一個序列模型CRF進行掌握,因為這兩個模型都是自然語言處理序列模型中的核心模型。在之前介紹的概率有向圖模型,如HMM,即貝葉斯網絡,相對應的概率無向圖模型就稱為馬爾可夫網絡或者馬爾可夫隨機場(MRF),本篇文章所介紹的CRF就是馬爾可夫隨機場的一種。

1.馬爾可夫隨機場

馬爾可夫隨機場也叫馬爾可夫網絡,同時也是一種無向圖模型。在概率圖模型的基礎上,針對無向圖模型,首先需要對無向圖模型的基礎概念進行一定程度上的掌握。

1.1. MRF相關概念

無向圖模型MRF所特有的一些概念如下:

  • 團:圖中的節點子集,并且其中任意兩個節點之間都有邊連接;
  • 極大團:為一個團,并且加入任何一個其他的節點都不能再形成團,例如下圖中,該圖中的團一共有{1,2},{1,3},{2,3},{2,4},{3,4},{3,5},{3,6},{1,3},{1,2,3},{2,3,4};其中極大團為{1,2,3},{2,3,4},{3,5},{3,6};

  • 勢函數(也稱因子Factor):定義在變量子集上的非負實函數,用于定義概率分布函數。在馬爾可夫隨機場中,多個變量之間的聯合概率分布可以基于團分解為多個勢函數的乘積,每個勢函數僅僅與一個團相關。
  • 特征函數:通常情況下都是一些實數值函數,它是用來刻畫數據的一些可能成立的經驗特性。例如下式就是一個特征函數:

1.2. Hammersley-Clifford定理

在對于勢函數與團相關理論掌握的基礎上,由此引申出隨機場的基礎定理,即Hammersley-Clifford定理。該定理的具體定義為:對于具有N個變量的馬爾可夫隨機場,已知變量為 ),這些變量中所有團所構成的集合為T,同時與團 對應的變量集合記作 ,則其對應的聯合概率為:

上式中, 就是與團S所對應的勢函數,其作用為對團 中的變量關系進行建模。 為規范化因子,其難以計算,在普遍情況下,無需計算出 的精確值。在針對于團 不是極大團的情況時,由于非極大團必定屬于某個極大團的性質,所以還是可以用極大團進行計算來替代非極大團的聯合概率,即:

上式中的 就是所有極大團的集合。Hammersley-Clifford定理是隨機場的基礎定理,其為馬爾可夫隨機場被表達為正概率分布的充分必要條件。針對于1.1中的示例圖,其聯合概率就為:

1.3. 分離集與馬爾科夫性

在對各種馬爾可夫性進行掌握前,首先需要理解分離集的概念。分離集的定義為:設A、B、C都是馬爾可夫隨機場中的節點集合,如果從集合A中的節點到集合C中的節點都必須要經過集合B中的節點,那么就可以稱集合A和集合C被集合B給分離,其中集合B就為分離集。如下圖所示:

有了分離集合的概念,對下面幾種馬爾可夫性的理解就相對簡單了,馬爾可夫性的定義為:當一個隨機過程在給定當前狀態及所有過去狀態情況下,其未來狀態的條件概率分布僅依賴于當前狀態,即只要給定了當前狀態,未來狀態是與過去狀態無關的,也是條件獨立的,該隨機過程也就具有了馬爾可夫性。同理,在馬爾可夫隨機場中,馬爾可夫性可解釋為當前狀態看作為無向圖中的一個節點,過去狀態就是與當前狀態節點有邊連接的其他節點。針對于馬爾可夫性和下圖,又有:

  • 全局馬爾可夫性:節點集合A,C是無向圖中被節點集合B分開的任意結點集合,則在給定隨機變量YB的條件下,隨機變量YA和YC條件獨立。如上圖中節點1,2就與節點6,7條件獨立。
  • 局部馬爾可夫性:設X是無向圖中任意一個結點,T是與X有邊相連的所有結點,無向圖中其他剩余結點為S,則給定隨機變量YT的條件下,隨機變量YX和YS條件獨立。如上圖的節點2,與2連接的節點為1和5,即給定節點1和5的情況下,那么節點2就與剩下的節點3,4,6,7條件獨立。
  • 成對馬爾可夫性:設無向圖中V和C是任意兩個沒有邊直接連接的結點,圖中其他結點的集合記做S,則給定隨機變量YS的條件下,隨機變量YV和YC條件獨立。如上圖中2和6兩個節點之間沒有邊直接連接,那么剩余其他節點為1,3,4,5,7,給定這些節點的情況下,節點2和節點6條件獨立。

綜上可知,這三種馬爾可夫性相互之間是關聯等價的,通過全局馬爾可夫性可以得到局部馬爾可夫性,通過局部馬爾可夫性也可得到成對馬爾可夫性,通過成對馬爾科夫性又可以推出全局馬爾可夫性。因此只要滿足三種性質的一種的無向圖就稱為馬爾可夫隨機場(MRF)。

2.條件隨機場——CRF

通過上述闡述,讀者們可以對馬爾可夫隨機場,即馬爾可夫無向圖有了基本的掌握與理解。在此基礎上,本文就引出條件隨機場CRF。

2.1.CRF

由上述可知,CRF模型是無向圖模型的一種,但是其與馬爾可夫隨機場(MRF)有所不同,主要區別在于MRF模型是生成模型,而CRF模型是判別式模型,其是對條件分布進行建模。兩者之間也存在關聯,即CRF是有條件的馬爾可夫隨機場,也就是在給定隨機變量的條件下的馬爾可夫隨機場。

CRF的基本定義為:設X和Y是隨機變量, 是給定X條件下Y的條件概率分布。若隨機變量Y構成一個無向圖的馬爾可夫隨機場,則稱條件概率分布 為CRF。對應于馬爾可夫性可理解為,如果隨機變量Y構成一個無向圖,且圖中每一個變量Y,都滿足馬爾可夫性(至少滿足全局馬爾可夫性、局部馬爾可夫性、成對馬爾可夫性中一種),則稱 為CRF。其中X為輸入變量,即需要標注的觀測序列,Y為輸出變量,表示狀態或標記序列。在自然語言處理領域中,普遍的輸入變量X和輸出變量Y具有相同圖結構。

2.2.CRF線性鏈

在實際應用中,對于CRF的使用最多的情況是線性鏈CRF,線性鏈的結構如下所示:

一般地,當X和Y具有相同圖結構時,線性鏈結構就變為如下所示:

在上圖中,X就為觀測序列,Y就為狀態序列。同時在給定隨機變量序列X的條件下,如果隨機變量序列Y相對于序列X的條件概率分布P(YIX)構成條件隨機場,那么可得隨機變量Y也滿足馬爾可夫性。公式表達為:

即Y當前狀態只與相連接的前后兩個狀態有關,而與其他狀態相互獨立,為線性連接的關系。此時稱P(YIX)為條件隨機場,相應的,X為輸入或者觀測序列,Y為輸出或者狀態序列。

2.3. CRF相關計算

當選定好勢函數后,這里選取指數函數,通過引入特征函數,可以得到條件概率為:

其中,tk和 sk分別為特征函數,tk定義為邊上的特征函數,也叫轉移特征,它依賴于當前節點和前一個節點; sk定義為結點上的特征函數,也叫狀態特征,只依賴于當前結點。一般情況下,tk和sk的取值為1或者0,即滿足特征條件時為1,不滿足則為0。λkμk分別為tk和sk所對應的權值。Z(x)為規范化因子,來保證P(YIX)為概率分布。

對于上述公式的理解,通過一個簡單例子可以更好地去掌握。例如設輸入觀測序列X X3X1,X2,X3對應的狀態序列Y為Y1,Y2,Y3,其中Y1,Y2,Y3 的取值為1或者2。對于第一條連接邊,設特征和權值為:

對應的特征函數為:

根據上式,同時給定相對應的權重 可寫出:

由此可計算狀態為 的非規范化條件概率為(不需要除以規范化因子Z) 。

3.CRF模型解決的三種問題類型

相較于之前的HMM模型,CRF模型同樣需要解決三種問題,分別為概率計算問題、預測問題和學習問題。

  • 概率計算問題:針對于概率計算問題,通常情況給定的已知信息是CRF模型的條件概率分布P(YIX)、觀測序列X和狀態序列Y,求解目標為某一條件概率以及相對應的數學期望。求解的方法基本就是前向后向計算方法。
  • 預測問題:針對于預測問題,通常情況給定的已知信息是CRF模型的條件概率分布P(YIX)、觀測序列X,求解目標為使得條件概率最大的狀態序列Y,即求解觀測序列所對應的狀態。求解方法基本是函數計算。
  • 學習問題:學習問題也叫模型訓練求解參數問題,通過給定的數據集(觀測序列和狀態序列等)來求解CRF模型所需要的參數,通常用到的方法就是模型訓練常用的尺度迭代方法(如梯度下降算法等)。

4.總結

相較于HMM模型,CRF模型計算的過程更為復雜,但是對于整體把握CRF模型的影響并不大,只需要在思路上明白CRF模型和HMM模型在實際應用中所需要解決的三種問題即可,針對于特定問題中給定的已知條件來實現求解目標。

在自然語言處理領域,對于概率統計模型的掌握其實也就是對于HMM模型和CRF模型的掌握。雖然,HMM和CRF模型流行于在自然語言處理領域使用深度學習技術之前,但是還是那句話,目前針對于自然語言處理領域深度學習技術的瓶頸問題,不妨換個思維,考慮下概率統計模型來處理,也許能取得不錯的效果。

作者介紹

稀飯,51CTO社區編輯,曾任職某電商人工智能研發中心大數據技術部門,做推薦算法。目前攻讀智能網絡與大數據方向的研究生,主要擅長領域有推薦算法、NLP、CV,使用代碼語言有Java、Python、Scala。

責任編輯:華軒 來源: 51CTO
相關推薦

2022-04-11 09:30:00

自然語言HMM深度學習

2017-05-05 15:34:49

自然語言處理

2021-09-03 12:01:07

模型自然語言

2021-05-13 07:17:13

Snownlp自然語言處理庫

2018-02-27 09:32:13

神經網絡自然語言初探

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術

2017-10-19 17:05:58

深度學習自然語言

2017-03-24 13:40:44

機器學習模型神經

2021-05-18 07:15:37

Python

2024-04-24 11:38:46

語言模型NLP人工智能

2023-08-07 08:41:45

自然語言模型因果推理

2025-05-28 01:50:00

2021-06-28 10:10:42

人工智能AI自然語言

2017-04-17 15:03:16

Python自然語言處理

2023-05-30 14:39:34

ChatGPT-4NLP

2020-02-25 12:00:53

自然語言開源工具

2021-11-12 15:43:10

Python自然語言數據

2020-02-25 23:28:50

工具代碼開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 福利精品 | 国产日韩精品一区 | 日韩在线高清 | 欧美午夜精品 | 国产精品不卡一区 | 91视频在线观看 | 农村妇女毛片精品久久久 | 亚洲精品视频一区 | 免费1区2区3区 | 久久成人综合 | 青青草原精品99久久精品66 | 成人午夜激情 | 国产精品久久久久aaaa | 国产精品视频网 | 伊人网综合在线观看 | 欧美2区 | 91中文字幕在线观看 | 欧美大片久久久 | 日本一区二区不卡视频 | 一级毛片免费视频 | 91精品国产色综合久久 | 亚洲永久| 国产精品大全 | 国产成人精品a视频一区www | 天天操妹子| 久久久免费观看视频 | 国产高清在线 | 国产日韩欧美一区二区在线播放 | 欧美精品中文字幕久久二区 | 日本一区视频在线观看 | 成人国产精品 | 四虎影视1304t | 欧美1页| 青青久久av北条麻妃海外网 | 国产免费一区二区三区最新6 | 亚洲精品欧美 | 中文字幕91 | 成人激情免费视频 | 久久精品99 | 国产一区二区三区四区五区加勒比 | 91精品国产麻豆 |