成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python中的自然語言處理入門

開發 后端 自然語言處理
今天生成的數據中有很大一部分是非結構化的。非結構化數據包括社交媒體評論、瀏覽歷史記錄和客戶反饋。您是否發現自己處于需要分析大量文本數據的情況,卻不知道如何繼續?Python 中的自然語言處理可以提供幫助。

 本教程的目標是讓您能夠通過自然語言處理 (NLP) 的概念在 Python 中分析文本數據。您將首先學習如何將文本標記為更小的塊,將單詞規范化為其根形式,然后去除文檔中的任何噪音,為進一步分析做好準備。

[[434759]]

讓我們開始吧!

先決條件

在本教程中,我們將使用 Python 的nltk庫對文本執行所有 NLP 操作。在撰寫本教程時,我們使用的是 3.4 版的nltk. 要安裝庫,您可以pip在終端上使用命令:

 

  1. pip install nltk==3.4 

要檢查系統中的版本nltk,您可以將庫導入 Python 解釋器并檢查版本:

 

  1. import nltk  
  2. print(nltk.__version__) 

 

要執行nltk本教程中的某些操作,您可能需要下載特定資源。我們將在需要時描述每個資源。

但是,如果您想避免在本教程后面下載單個資源并立即獲取它們,請運行以下命令:

  1. python -m nltk.downloader all 

第 1 步:轉換為代幣

計算機系統本身無法在自然語言中找到意義。處理自然語言的第一步是將原始文本轉換為標記。甲令牌是連續字符的組合,具有一定的意義。由您決定如何將句子分解為標記。例如,一個簡單的方法是用空格分割一個句子,將其分解為單個單詞。

在 NLTK 庫中,您可以使用該word_tokenize()函數將字符串轉換為標記。但是,您首先需要下載punkt資源。在終端中運行以下命令:

 

  1. nltk.download('punkt'

接下來,您需要導入word_tokenizefromnltk.tokenize才能使用它:

 

  1. from nltk.tokenize import word_tokenize 
  2. print(word_tokenize("Hi, this is a nice hotel.")) 

 

代碼的輸出如下:

 

  1. ['Hi'',''this''is''a''nice''hotel''.'

您會注意到,word_tokenize它不僅僅基于空格拆分字符串,還將標點符號拆分為標記。如果您想在分析中保留標點符號,這取決于您。

第 2 步:將單詞轉換為其基本形式

在處理自然語言時,您經常會注意到同一個詞有多種語法形式。例如,“go”、“going”和“gone”是同一個動詞“go”的形式。

雖然您的項目的必要性可能要求您保留各種語法形式的單詞,但讓我們討論一種將同一單詞的各種語法形式轉換為其基本形式的方法。有兩種技術可用于將單詞轉換為其基詞。

第一種技術是詞干。Stemming是一種簡單的算法,可以從單詞中刪除詞綴。有多種詞干提取算法可用于 NLTK。我們將在本教程中使用 Porter 算法。

我們首先PorterStemmer從nltk.stem.porter. 接下來,我們將詞干分析器初始化為stemmer變量,然后使用該.stem()方法查找單詞的基本形式:

 

  1. from nltk.stem.porter import PorterStemmer  
  2. stemmer = PorterStemmer() 
  3. print(stemmer.stem("going")) 

 

上面代碼的輸出是go. 如果您針對上述其他形式的“go”運行詞干分析器,您會注意到詞干分析器返回相同的基本形式“go”。然而,由于詞干提取只是一種基于去除詞綴的簡單算法,當詞在語言中不太常用時,它會失敗。

例如,當您在單詞“constitutes”上嘗試詞干分析時,它給出了一個不直觀的結果:

 

  1. print(stemmer.stem("constitutes")) 

你會注意到輸出是“constitut”。

這個問題可以通過使用更復雜的方法來解決,以在給定的上下文中找到單詞的基本形式。該過程稱為詞形還原。詞形還原根據文本的上下文和詞匯對單詞進行規范化。在 NLTK 中,您可以使用WordNetLemmatizer類對句子進行詞形還原。

首先,您需要wordnet從 Python 終端中的 NLTK 下載器下載資源:

 

  1. nltk.download('wordnet'

下載后,您需要導入WordNetLemmatizer該類并對其進行初始化:

 

  1. from nltk.stem.wordnet import WordNetLemmatizer  
  2. lem = WordNetLemmatizer() 

 

要使用 lemmatizer,請使用.lemmatize()方法。它需要兩個參數:單詞和上下文。在我們的示例中,我們將使用“v”作為上下文。在查看該.lemmatize()方法的輸出后,讓我們進一步探索上下文:

 

  1. print(lem.lemmatize('constitutes''v')) 

您會注意到該.lemmatize()方法正確地將單詞“constitutes”轉換為其基本形式“constitute”。您還會注意到詞形還原比詞干提取花費的時間更長,因為算法更復雜。

讓我們檢查如何以.lemmatize()編程方式確定方法的第二個參數。NLTK 具有pos_tag()幫助確定句子中單詞上下文的功能。但是,您首先需要

averaged_perceptron_tagger通過 NLTK 下載器下載資源:

 

  1. nltk.download('averaged_perceptron_tagger'

接下來,導入pos_tag()函數并在一個句子上運行它:

 

  1. from nltk.tag import pos_tag 
  2. sample = "Hi, this is a nice hotel." 
  3. print(pos_tag(word_tokenize(sample))) 

 

您會注意到輸出是一個對列表。每對由一個標記及其標記組成,它表示整個文本中標記的上下文。請注意,標點符號的標簽本身就是:

 

  1. [('Hi''NNP'), 
  2. (','','), 
  3. ('this''DT'), 
  4. ('is''VBZ'), 
  5. ('a''DT'), 
  6. ('nice''JJ'), 
  7. ('hotel''NN'), 
  8. ('.''.')] 

 

你如何解碼每個令牌的上下文?這是Web 上所有標簽及其相應含義的完整列表。請注意,所有名詞的標簽都以“N”開頭,所有動詞的標簽都以“V”開頭。我們可以在方法的第二個參數中使用此信息.lemmatize():

 

  1. def lemmatize_tokens(stentence): 
  2.   lemmatizer = WordNetLemmatizer() 
  3.   lemmatized_tokens = [] 
  4.   for word, tag in pos_tag(stentence): 
  5.     if tag.startswith('NN'): 
  6.       pos = 'n' 
  7.     elif tag.startswith('VB'): 
  8.       pos = 'v' 
  9.     else
  10.       pos = 'a' 
  11.     lemmatized_tokens.append(lemmatizer.lemmatize(word, pos)) 
  12.   return lemmatized_tokens 
  13.  
  14. sample = "Legal authority constitutes all magistrates." 
  15. print(lemmatize_tokens(word_tokenize(sample))) 

 

上面代碼的輸出如下:

 

  1. ['Legal''authority''constitute''all''magistrate''.'

此輸出是預期的,其中“constitutes”和“magistrates”已分別轉換為“constitute”和“magistrate”。

第 3 步:數據清理

準備數據的下一步是清理數據并刪除任何對您的分析沒有意義的內容。從廣義上講,我們將考慮從您的分析中刪除標點符號和停用詞。

刪除標點符號是一項相當容易的任務。該庫的punctuation對象string包含所有英文標點符號:

 

  1. import string 
  2. print(string.punctuation) 

 

此代碼片段的輸出如下:

 

  1. '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~' 

為了從標記中刪除標點符號,您可以簡單地運行:

 

  1. for token in tokens: 
  2.   if token in string.punctuation: 
  3.     # Do something 

 

接下來,我們將專注于刪除停用詞。停用詞是語言中常用的詞,如“I”、“a”和“the”,在分析文本時對文本幾乎沒有意義。因此,我們將從分析中刪除停用詞。首先,stopwords從 NLTK 下載器下載資源:

 

  1. nltk.download('stopwords'

一旦下載完成后,進口stopwords從nltk.corpus和使用.words()方法與“英語”作為參數。這是一個包含 179 個英語停用詞的列表:

 

  1. from nltk.corpus import stopwords 
  2. stop_words = stopwords.words('english'

 

我們可以將詞形還原示例與本節中討論的概念結合起來創建以下函數,clean_data()。此外,在比較一個詞是否是停用詞列表的一部分之前,我們將其轉換為小寫。這樣,如果停止詞出現在句子的開頭并且大寫,我們仍然會捕獲它:

 

  1. def clean_data(tokens, stop_words = ()): 
  2.  
  3.   cleaned_tokens = [] 
  4.  
  5.   for token, tag in pos_tag(tokens): 
  6.     if tag.startswith("NN"): 
  7.       pos = 'n' 
  8.     elif tag.startswith('VB'): 
  9.       pos = 'v' 
  10.     else
  11.       pos = 'a' 
  12.  
  13.     lemmatizer = WordNetLemmatizer() 
  14.     token = lemmatizer.lemmatize(token, pos) 
  15.  
  16.     if token not in string.punctuation and token.lower() not in stop_words: 
  17.       cleaned_tokens.append(token) 
  18.   return cleaned_tokens 
  19.  
  20. sample = "The quick brown fox jumps over the lazy dog." 
  21. stop_words = stopwords.words('english'
  22.  
  23. clean_data(word_tokenize(sample), stop_words) 

 

該示例的輸出如下:

 

  1. ['quick''brown''fox''jump''lazy''dog'

如您所見,標點符號和停用詞已被刪除。

詞頻分布

現在您已經熟悉了 NLP 中的基本清理技術,讓我們嘗試找出文本中單詞的頻率。在本練習中,我們將使用古騰堡免費提供的童話故事《老鼠、鳥和香腸》的文本。我們將這個童話的文本存儲在一個字符串中,text。

首先,我們text對它進行標記,然后使用clean_data我們上面定義的函數對其進行清理:

 

  1. tokens = word_tokenize(text) 
  2. cleaned_tokens = clean_data(tokens, stop_words = stop_words) 

 

要查找文本中單詞的頻率分布,您可以使用FreqDistNLTK 類。使用令牌作為參數初始化類。然后使用該.most_common()方法查找常見的術語。在這種情況下,讓我們嘗試找出前十項:

 

  1. from nltk import FreqDist 
  2.  
  3. freq_dist = FreqDist(cleaned_tokens) 
  4. freq_dist.most_common(10) 

 

以下是這個童話故事中最常見的十個術語:

 

  1. [('bird', 15), 
  2. ('sausage', 11), 
  3. ('mouse', 8), 
  4. ('wood', 7), 
  5. ('time', 6), 
  6. ('long', 5), 
  7. ('make', 5), 
  8. ('fly', 4), 
  9. ('fetch', 4), 
  10. ('water', 4)] 

 

不出所料,三個最常見的詞是童話故事中的三個主要人物。

在分析文本時,單詞的頻率可能不是很重要。通常,NLP 的下一步是生成一個統計數據——TF-IDF(詞頻——逆文檔頻率)——它表示一個單詞在文檔列表中的重要性。

結論

在本教程中,我們首先了解了 Python 中的自然語言處理。我們將文本轉換為標記,將單詞轉換為它們的基本形式,最后,清理文本以刪除任何對分析沒有意義的部分。

盡管我們在本教程中研究了簡單的 NLP 任務,但還有更多技術需要探索。例如,我們可能想要對文本數據執行主題建模,其目標是找到文本可能正在談論的共同主題。NLP 中更復雜的任務是實現情感分析模型,以確定任何文本背后的感覺。

 

責任編輯:華軒 來源: 今日頭條
相關推薦

2021-05-18 07:15:37

Python

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2017-04-17 15:03:16

Python自然語言處理

2021-05-13 07:17:13

Snownlp自然語言處理庫

2017-04-10 16:15:55

人工智能深度學習應用

2017-10-19 17:05:58

深度學習自然語言

2024-04-24 11:38:46

語言模型NLP人工智能

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術

2017-05-05 15:34:49

自然語言處理

2020-02-25 23:28:50

工具代碼開發

2020-02-25 12:00:53

自然語言開源工具

2020-11-12 18:57:14

摘要PythonNLP

2017-06-29 13:02:54

大數據自然語言NLP

2021-07-07 17:46:32

人工智能自然語言處理AI

2024-11-07 15:49:34

2018-02-27 09:32:13

神經網絡自然語言初探

2020-09-23 10:45:45

人工智能自然語言NLP

2021-03-03 09:00:00

自然語言數據科學人工智能

2021-06-28 10:10:42

人工智能AI自然語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久精品一区 | 91视频在线看| 国产精品一区二区三区四区 | m豆传媒在线链接观看 | 国产精品区一区二 | 婷婷色国产偷v国产偷v小说 | www精品美女久久久tv | 午夜视频一区二区 | 精品视频一区二区 | 国产日韩精品一区 | 国产精品免费av | 天天操夜夜操 | 久久精彩视频 | 日韩欧美国产电影 | 在线免费国产视频 | 国产成人精品区一区二区不卡 | 久久久精| 国产精品久久久久久久模特 | 黄色片在线看 | 欧美精品在欧美一区二区 | 精品久久久久久久人人人人传媒 | 91n成人| 午夜寂寞影院列表 | 亚洲国产一区在线 | 欧美成人免费在线视频 | 欧美一级大片免费观看 | 成人精品免费视频 | 日韩精品在线一区 | 日韩欧美一级精品久久 | 99爱免费 | 久久最新精品视频 | 久久av一区二区三区 | 日韩国产一区二区三区 | 国产一级免费视频 | 在线亚洲免费 | 91精品国产91久久久 | 中文字幕成人 | 亚洲电影免费 | 欧美九九九 | 成人亚洲精品 | 啪啪网页 |