成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

5個Python庫可以幫你輕松的進行自然語言預處理

開發 后端
自然語言是指人類相互交流的語言,而自然語言處理是將數據以可理解的形式進行預處理,使計算機能夠理解的一種方法。簡單地說,自然語言處理(NLP)是幫助計算機用自己的語言與人類交流的過程。

 自然語言處理是比較廣泛的研究領域之一。許多大公司在這個領域投資很大。NLP為公司提供了機會,讓他們能夠根據消費者的情緒和文本很好地了解他們。NLP的一些最佳用例是檢測假電子郵件、對假新聞進行分類、情感分析、預測你的下一個單詞、自動更正、聊天機器人、個人助理等等。

[[399059]]

解決任何NLP任務前要知道的7個術語

標記:它是將整個文本分割成小標記的過程。占卜是根據句子和單詞兩個基礎來完成的。

 

  1. text = "Hello there, how are you doing today? The weather is great today. python is awsome"  
  2. ##sentece tokenize (Separated by sentence)  
  3. ['Hello there, how are you doing today?''The weather is great today.''python is awsome' 
  4. ##word tokenizer (Separated by words)  
  5. ['Hello''there'',''how''are''you''doing''today''?''The''weather''is''great''today''.','python''is''awsome'

 

停止詞:一般來說,這些詞不會給句子增加太多的意義。在NLP中,我們刪除了所有的停止詞,因為它們對分析數據不重要。英語中總共有179個停止詞。

詞干提取:它是通過去掉后綴和前綴將一個單詞還原為詞根的過程。

詞形還原:它的工作原理與詞干法相同,但關鍵的區別是它返回一個有意義的單詞。主要是開發聊天機器人、問答機器人、文本預測等。

WordNet:它是英語語言名詞、動詞、形容詞和副詞的詞匯數據庫或詞典,這些詞被分組為專門為自然語言處理設計的集合。

詞性標注:它是將一個句子轉換為一個元組列表的過程。每個元組都有一個形式(單詞、標記)。這里的標簽表示該單詞是名詞、形容詞還是動詞等等。

 

  1. text = 'An sincerity so extremity he additions.'  
  2. --------------------------------  
  3. ('An''DT'), ('sincerity''NN'), ('so''RB'), ('extremity''NN'), ('he''PRP'), ('additions''VBZ')] 

 

詞袋:它是一個將文本轉換成某種數字表示的過程。比如獨熱編碼等。

 

  1. sent1 = he is a good boy  
  2. sent2 = she is a good girl  
  3.  
  4.  
  5. girl good boy  
  6. sent1 0 1 1  
  7. sent2 1 0 1 

 

現在,讓我們回到我們的主題,看看可以幫助您輕松預處理數據的庫。

NLTK

毫無疑問,它是自然語言處理最好和使用最多的庫之一。NLTK是自然語言工具包的縮寫。由Steven Bird 和Edward Loper開發的。它帶有許多內置的模塊,用于標記化、詞元化、詞干化、解析、分塊和詞性標記。它提供超過50個語料庫和詞匯資源。

安裝:pip install nltk

讓我們使用NLTK對給定的文本執行預處理

 

  1. import nltk 
  2. #nltk.download('punkt'
  3. from nltk.tokenize import word_tokenize 
  4. from nltk.corpus import stopwords 
  5. from nltk.stem import PorterStemmer 
  6. import re 
  7. ps = PorterStemmer() 
  8. text = 'Hello there,how are you doing today? I am Learning Python.' 
  9. text = re.sub("[^a-zA-Z0-9]"," ",text) 
  10. text = word_tokenize(text) 
  11. text_with_no_stopwords = [ps.stem(word) for word in text if word not in stopwords.words('english')] 
  12. text = " ".join(text_with_no_stopwords) 
  13. text 
  14. -----------------------------------------------OUTPUT------------------------------------ 
  15. 'hello today I learn python' 

 

TextBlob

Textblob是一個簡化的文本處理庫。它提供了一個簡單的API,用于執行常見的NLP任務,如詞性標記、情感分析、分類、翻譯等。

安裝:pip install textblob

spacy

這是python中最好用的自然語言處理庫之一,它是用cpython編寫的。它提供了一些預訓練的統計模型,并支持多達49種以上的語言進行標記化。它以卷積神經網絡為特征,用于標記、解析和命名實體識別。

安裝:pip install spacy

 

  1. import spacy 
  2. nlp = spacy.load('en_core_web_sm'
  3. text = "I am Learning Python Nowdays" 
  4. text2 = nlp(text) 
  5. for token in text2: 
  6. print(token,token.idx) 
  7. ------------------------------OUTPUT----------------------- 
  8. I 0 
  9. am 2 
  10. Learning 5 
  11. Python 14 
  12. Nowdays 21 

 

Gensim

它是一個Python庫,專門用于識別兩個文檔之間的語義相似性。它使用向量空間建模和主題建模工具包來尋找文檔之間的相似之處。它是設計用來處理大型文本語料庫的算法。

安裝:pip install gensim

CoreNLP

Stanford CoreNLP的目標是簡化對一段文本應用不同語言工具的過程。這個庫運行速度非常快,并且在開發中工作得很好。

安裝:pip install stanford-corenlp

責任編輯:華軒 來源: 今日頭條
相關推薦

2021-05-13 07:17:13

Snownlp自然語言處理庫

2024-11-07 15:49:34

2017-10-19 17:05:58

深度學習自然語言

2023-04-26 00:46:03

Python自然語言處理庫

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2020-05-25 09:41:36

大數據自然語言處理數據分析

2017-04-17 15:03:16

Python自然語言處理

2021-11-12 15:43:10

Python自然語言數據

2024-04-24 11:38:46

語言模型NLP人工智能

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術

2023-12-05 15:09:57

PythonNLP

2017-05-05 15:34:49

自然語言處理

2020-02-25 23:28:50

工具代碼開發

2020-02-25 12:00:53

自然語言開源工具

2021-05-18 07:15:37

Python

2020-11-12 18:57:14

摘要PythonNLP

2018-04-04 12:00:00

2022-08-17 09:00:00

自然語言機器學習數據科學

2022-09-23 11:16:26

自然語言人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 美女一级毛片 | 国产成人99久久亚洲综合精品 | 男女精品久久 | 国产精品高潮呻吟久久av野狼 | 国产亚洲一区二区三区 | 国产精品五区 | www久久99| 亚洲+变态+欧美+另类+精品 | 国产一区二区成人 | av永久 | 成人免费看黄网站在线观看 | 欧美vide| 中文字幕亚洲一区 | 天天干,夜夜操 | 国产一级在线 | 久久久久久久久久久久久久久久久久久久 | 亚洲成人精品免费 | 亚洲一区二区三区在线播放 | 成人精品在线视频 | 性高湖久久久久久久久aaaaa | 久久精品黄色 | 99久久婷婷国产综合精品电影 | 久久伊| 天天玩天天操天天干 | 日韩av一区二区在线观看 | 自拍视频精品 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 一区视频在线 | 久久爆操| 成人免费一区二区 | 国产亚洲一区二区精品 | 国产成人亚洲精品 | 韩日精品一区 | 99精品久久| 精品久久久久香蕉网 | 欧美二区在线 | 91av在线免费观看 | 操视频网站 | www.中文字幕.com | 欧美精品中文 | 久久不射电影网 |