成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從語言建模到隱馬爾可夫模型:一文詳述計算語言學

開發 開發工具
計算語言學是一門跨學科的研究領域,它試圖找出自然語言的規律,建立運算模型,最終讓電腦能夠像人類般分析、理解和處理自然語言。本文為大家介紹一篇全面概述計算語言學的論文,希望能有助于各位讀者全面了解計算語言學。

計算語言學(computational linguistics)是一門跨學科的研究領域,它試圖找出自然語言的規律,建立運算模型,最終讓電腦能夠像人類般分析、理解和處理自然語言。

過去,計算語言學的研究一般由專門負責利用電腦處理自然語言的計算機科學家進行。由于近年的研究顯示人類語言的復雜性超乎想象,現在的計算語言學研究多由來自不同學科的專家共同進行。一般來說,研究隊伍的成員有計算機科學家、語言學家、語言專家(熟悉有關研究項目所要處理的語言的人),以至研究人工智能、認知心理學、數學、邏輯學等的專家。

本文為大家介紹一篇全面概述計算語言學的論文,希望能有助于各位讀者全面了解計算語言學。以下是該論文的目錄,機器之心將簡要介紹該論文所涉及到的五個主題,即語言建模與概率、機器翻譯、序列標注與隱馬爾可夫模型、解析與 PCFG、主題模型與 PLSA 和 Gibbs 采樣,幾乎每章都有編程任務和習題。該論文在最初是 13 年發布的,但 16 年進行了許多修正與更新。

論文地址:http://cs.brown.edu/courses/csci2951-k/papers/cl-intro.pdf

計算語言學

下文將分章節提供更新后的簡介與地址:

***章:語言建模與概率論

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/langmod.pdf

實際上概率方法在現代計算語言學中是十分普遍的,該論文所有討論的方法和主題都是是基于或涉及到各種各樣的概率模型。本章節主要是希望能提供這些最基本的概率論知識,并為其它章節打下堅實的基礎。實際上,本論文所述的各種語言模型都需要一定的概率論基礎,但這些概率論基礎只需要最簡單的概念和公式就行。更加具體的概率論請查閱概率論相關書籍。

本章介紹了概率、一元文本建模、上下文依賴和 n 元語言模型。

第二章:機器翻譯

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/mt.pdf

統計機器翻譯背后的概念十分簡單,假定我們翻譯中文和英文,那么我們首先需要一組中英平行語料庫,即語料庫中的中文句和英文句之間的距離非常短,然后我們使用這一些語料庫對兩種語言進行概率建模,***在進行預測的時候只需要選擇概率***的語句作為譯文就完成了翻譯。

本章介紹了機器翻譯的基本原理、IBM Model 1 和 Model 2、基于短語的機器翻譯和解碼。不過本章節沒有介紹機器翻譯的深度學習方法,比如說 RNN、LSTM、注意力機制等,但仍然非常有助于初學者系統地了解統計機器翻譯。

第三章:序列標注與隱馬爾可夫模型

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/hmm.pdf

序列標注問題即給定一個長度為 n 的序列 x=(x_1, . . . , x_n),還有長度為 n 的輸出序列 y = (y_1, . . . , y_n),其中 y_i ∈ Y 為 x_i 的標注。很多語言處理任務都是采用的這種框架,因此序列標注問題在計算語言學中占據十分重要的地位。

本章我們介紹了隱馬爾可夫模型(HMM),一種適合這類任務的非常優雅的技術。HMM 首先用于語音識別,i 是對時間的度量。

隱馬爾可夫模型(Hidden Markov model):顯馬爾可夫過程是完全確定性的——一個給定的狀態經常會伴隨另一個狀態。交通信號燈就是一個例子。相反,隱馬爾可夫模型通過分析可見數據來計算隱藏狀態的發生。隨后,借助隱藏狀態分析,隱馬爾可夫模型可以估計可能的未來觀察模式。在本例中,高或低氣壓的概率(這是隱藏狀態)可用于預測晴天、雨天、多云天的概率。

  • 優點:容許數據的變化性,適用于識別(recognition)和預測操作
  • 場景舉例:面部表情分析、氣象預測

本章介紹了隱馬爾可夫模型、most likely label 和維特比解碼、如何使用 HMM 確定序列概率、后向概率、評估 HMM 參數、前向-后向算法中的 MT 參數、使用 HMM 的平滑(smoothing)算法、詞性歸納(part-of-speech induction)。

第四章:解析與 PCFG

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/parsing.pdf

在自然語言,如英語中,詞與詞連接起來構成詞組,詞組和詞組連接起來構成新的詞組。例如,在句子「Sam thinks Sandy likes the book」中,單詞「the」和「book」結合起來構成了名詞詞組(NP)「the book」,「the book」又和動詞「like」連接起來構成了動詞詞組(VP)「likes the book」,它與「Sandy」連接起來構成了嵌入句或語句(S)「Sandy likes the book」。本章的主題就是解析——從單詞串中發現某種結構。

本章首先介紹了短語結構樹和依賴樹,然后介紹概率上下文無關語法(PCFG),以及使用 PCFG 進行解析和如何評估 PCFG,之后介紹了 scoring parser。本章還介紹了評估 treebank 中較好的語法以及如何對 A 解析器進行編程。

第五章:主題模型與 PLSA 和 Gibbs 采樣

章節地址:https://cs.brown.edu/courses/csci1460/assets/files/topicmod.pdf

本章主要介紹主題模型,寫出獲取概念「aboutness」的程序。

本章介紹了主題模型、概率潛在語義分析(PLSA)和學習 PLSA 參數。

主題模型(Topic Model)在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講,如果一篇文章有一個中心思想,那么一些特定詞語會更頻繁的出現。比方說,如果一篇文章是在講狗的,那「狗」和「骨頭」等詞出現的頻率會高些。如果一篇文章是在講貓的,那「貓」和「魚」等詞出現的頻率會高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現的頻率會大致相等。但真實的情況是,一篇文章通常包含多種主題,而且每個主題所占比例各不相同。因此,如果一篇文章 10% 和貓有關,90% 和狗有關,那么和狗相關的關鍵字出現的次數大概會是和貓相關的關鍵字出現次數的 9 倍。一個主題模型試圖用數學框架來體現文檔的這種特點。主題模型自動分析每個文檔,統計文檔內的詞語,根據統計的信息來斷定當前文檔含有哪些主題,以及每個主題所占的比例各為多少。主題模型最初是運用于自然語言處理相關方向,但目前已經延伸至生物信息學等其它領域。

【本文是51CTO專欄機構“機器之心”的原創文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2022-04-11 09:30:00

自然語言HMM深度學習

2022-07-26 00:00:03

語言模型人工智能

2017-08-23 09:36:21

2024-09-04 16:19:06

語言模型統計語言模型

2024-05-16 11:34:55

2023-11-13 18:18:28

2022-08-26 14:44:32

強化學習AI

2022-06-08 08:11:56

威脅建模網絡安全網絡攻擊

2024-04-26 00:01:00

Go語言類型

2009-10-12 13:10:58

馬爾可夫鏈

2017-11-28 15:20:27

Python語言編程

2025-04-29 01:55:00

預測模型建模思路模型分類

2024-07-23 10:34:57

2025-03-27 02:44:00

2024-03-20 10:31:27

2023-11-22 16:10:59

編程語言機器語言

2025-03-26 10:57:40

PyTorchGGUF

2022-05-25 10:28:35

模型AI

2021-05-06 11:18:23

人工智能語音識別
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 婷婷丁香在线视频 | 亚洲成人精品在线 | 久久亚洲综合 | 久久久99精品免费观看 | 色播视频在线观看 | 亚洲欧美一区二区三区在线 | 超碰8| 国产精品亚洲第一区在线暖暖韩国 | 国产一级电影在线 | 最近日韩中文字幕 | 久久一 | 国产精品久久国产精品 | 久久五月婷 | 日韩精品极品视频在线观看免费 | 亚洲欧美日韩系列 | 四虎最新地址 | 日本成人片在线观看 | 国产激情偷乱视频一区二区三区 | 欧美日韩国产高清视频 | 一区二区三区四区电影 | 午夜精品视频在线观看 | 91精品国产综合久久久久久丝袜 | 91一区二区在线观看 | 国产成人午夜电影网 | 久久久999免费视频 999久久久久久久久6666 | 天堂色| 亚洲精品一区二区三区蜜桃久 | 人人澡视频 | 三级黄片毛片 | 国产高清精品在线 | 在线免费av观看 | 一区二区在线观看av | www.4567| 精品久久99 | 国产精品久久久久久一级毛片 | 成人在线视频免费看 | 亚洲国产成人精品一区二区 | 亚洲福利一区二区 | 日日夜夜免费精品 | 国产午夜亚洲精品不卡 | 久草中文在线观看 |