成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

五大常用數據科學Python庫

開發 后端
處理數據的過程消耗了人們在日常工作中的大量時間,而且我也經歷過。我不僅處理過數值數據,還處理過文本數據,這需要大量的預處理,可以通過nltk、textblob和pyldavis等庫來幫助。

 介紹

處理數據的過程消耗了人們在日常工作中的大量時間,而且我也經歷過。我不僅處理過數值數據,還處理過文本數據,這需要大量的預處理,可以通過nltk、textblob和pyldavis等庫來幫助。

[[375704]]

下面我將討論這些庫的概述和具體的功能、關于安裝的代碼,以及如何使用這些有益的庫的示例。

Pandas

Pandas庫[3]對于致力于探索性數據分析的數據科學家來說是一個必不可少的庫。顧名思義,它使用pandas來分析你的數據,或者更具體地說,pandas數據幀。

以下是一些你可以從HTML報表中訪問和查看的功能:

  • 類型推斷
  • 唯一值
  • 缺少值
  • 分位數統計(例如,中位數)
  • 描述性統計
  • 直方圖
  • 相關性(如皮爾遜)
  • 文本分析

如何安裝?

使用pip:

 

  1. pip install -U pandas-profiling[notebook] 
  2. jupyter nbextension enable --py widgetsnbextension 
  3.  
  4. 這種方式對我也很管用: 
  5.  
  6. pip install pandas-profiling 
  7. import pandas_profiling 

 

例子:

下面是我們可以從profile report功能訪問的可視化示例之一。可以看到一個易于理解的彩色的相關性可視化圖。

 

五大常用數據科學Python庫

 

局限性:

如果有一個大的數據集,這個概要報告可能需要相當長的時間。我的解決方案是要么簡單地使用較小的數據集,要么對整個數據集進行采樣。

NLTK

通常與nltk相關的術語是NLP,或者自然語言處理,它是數據科學(和其他學科)的一個分支,它更容易地包含對文本的處理。導入nltk之后,你可以更輕松地分析文本。

以下是你可以使用nltk訪問的一些功能:

  • 標記化文本(例如,[“標記化”,“文本”])
  • 詞性標記
  • 詞干提取和詞形還原

如何安裝:

 

  1. pip install nltk 
  2. import nltk 

 

例子:

 

  1. import nltk 
  2.  
  3. thing_to_tokenize = “a long sentence with words” 
  4.  
  5. tokens = nltk.word_tokenize(thing_to_tokenize) 
  6.  
  7. tokens 
  8.  
  9. returns
  10.  
  11. [“a”, “long”, “sentence”, “with”, “words”] 

 

我們需分開每個單詞,以便對其進行分析。

在某些情況下需要分隔單詞。然后它們可以被標記、計數,機器學習算法的新指標可以使用這些輸入來創建預測。利用nltk的另一個有用的特性是文本可以用于情感分析。情感分析在很多企業中都很重要,尤其是那些有客戶評論的企業。現在我們討論情感分析,讓我們看看另一個有助于快速情感分析的庫。

TextBlob

TextBlob[8]與nltk有很多相同的優點,但是它的情感分析功能非常出色。除了分析之外,它還具有利用樸素貝葉斯和決策樹支持分類的功能。

以下是你可以使用TextBlob訪問的一些功能:

  • 標記化
  • 詞性標注
  • 分類
  • 拼寫更正
  • 情感分析

如何安裝:

 

  1. pip install textblob 
  2.  
  3. from textblob import TextBlob 

 

例子:

情感分析:

 

  1. review = TextBlob(“here is a great text blob about wonderful Data Science”) 
  2.  
  3. review.sentiment 
  4.  
  5. returns
  6.  
  7. Sentiment(polarity=0.80, subjectivity = 0.44) 

 

正常浮點范圍為[-1.0,1.0],而積極情感介于[0.0,1.0]之間。

分類:

 

  1. from textblob.classifiers import NaiveBayesClassifier 
  2.  
  3. training_data = [(‘sentence example good one’, ‘pos’), (‘sentence example great two’, ‘pos’), (‘sentence example bad three’, ‘neg’), (‘sentence example worse four’, ‘neg’)] 
  4.  
  5. testing_data = [(‘sentence example good’, ‘pos’), (‘sentence example great’, ‘pos’)] 
  6.  
  7. cl = NaiveBayesClassifier(training_data) 

 

你可以使用這個分類器對文本進行分類,該分類器將返回“pos”或“neg”輸出。

這些來自textblob的簡單代碼提供了非常強大和有用的情感分析和分類。

pyLDAvis

另一個使用NLP的工具是pyLDAvis[10]。它是一個交互式主題模型可視化工具的庫。例如,當我使用LDA(潛Dirichlet分布)執行主題模型時,我通常會看到單元格中的主題輸出,這可能很難閱讀。然而當它出現在一個很好的視覺總結中時,它會更有益,也更容易消化,就像pyLDAvis一樣。

以下是你可以使用pyLDAvis訪問的一些功能:

  • 顯示了前30個最突出的術語
  • 有一個交互式調整器,允許你滑動相關性度量
  • 顯示x軸上的PC1和y軸上的PC2的熱門主題
  • 顯示與大小對應的主題

總的來說,這是一種讓人印象深刻的主題可視化方式,這是其他任何庫都無法做到的。

如何安裝:

 

  1. pip install pyldavis 
  2.  
  3. import pyldavis 

 

例子:

為了看到最好的例子,這里有一個Jupyter Notebook[11]參考資料,它展示了這個數據科學庫的許多獨特和有益的特性: https://nbviewer.jupyter.org/github/bmabey/pyLDAvis/blob/master/notebooks/pyLDAvis_overview.ipynb

NetworkX

這個數據科學包NetworkX[13],將其優勢集中在生物、社會和基礎設施網絡可視化上。

以下是你可以使用NetworkX訪問的一些功能:

  • 創建圖形、節點和邊
  • 檢驗圖的元素
  • 圖結構
  • 圖的屬性
  • 多重圖
  • 圖形生成器和操作

如何安裝:

 

  1. pip install networkx 
  2.  
  3. import networkx 

 

例子:

創建圖形

 

  1. import networkx 
  2.  
  3. graph = networkx.Graph() 

 

你可以與其他庫協作,例如matplotlib.pyplot也可以創建圖形的可視化(以數據科學家習慣于看到的方式)。

總結

如你所見,有很多有用的數據科學庫可以很容易地訪問。本文對一些探索性的數據分析庫、自然語言處理庫(NLP)和圖形庫做了一些說明。

我們討論的頂級數據科學庫、平臺、包和模塊包括:

 

  1. Pandas Profiling 
  2.  
  3. NLTK 
  4.  
  5. TextBlob 
  6.  
  7. pyLDAvis 
  8.  
  9. NetworkX 

 

責任編輯:華軒 來源: 今日頭條
相關推薦

2024-12-20 09:00:00

Python科學計算

2019-01-08 16:25:42

數據科學機器學習神經網絡

2023-11-28 11:22:51

Pythonitertools庫工具

2013-04-10 17:39:52

數據庫安全

2022-01-18 06:53:10

量子科學量子安全量子計算

2022-10-24 11:22:53

數據科學機器學習

2021-04-15 09:00:00

數據庫React Nativ開發

2009-08-04 15:36:16

2017-11-13 10:22:21

2019-06-04 10:40:07

2023-10-30 15:16:59

Python庫Python開發

2022-04-19 08:00:00

數據分析數據科學大數據

2017-01-15 10:56:57

大數據非結構化過期

2020-12-16 19:25:50

數據科學數據科學家大數據

2019-02-28 10:50:56

數據平臺架構

2021-01-22 15:25:42

數據科學數據分析IT

2013-01-10 10:30:32

大數據預測Hadoop

2021-09-01 20:37:59

云數據庫云計算遷移

2010-08-30 14:47:47

CSS選擇器

2010-08-24 16:03:22

Div高度
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久无毛 | 日屁视频 | 亚洲国产成人精品久久久国产成人一区 | 中文字幕在线欧美 | 九九综合 | 少妇一区二区三区 | 久草www| 精品一二三区在线观看 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 中文字幕一区二区三区四区五区 | 成年人在线观看视频 | 在线视频 亚洲 | 韩国电影久久 | 成人精品一区亚洲午夜久久久 | 欧美视频福利 | 日韩三级免费网站 | 99视频在线免费观看 | 亚洲在线一区二区 | 色综合久久天天综合网 | 精品欧美一区二区在线观看欧美熟 | 一级看片免费视频囗交动图 | 日韩福利在线观看 | 色婷婷av一区二区三区软件 | 精品视频一区二区三区四区 | 日本大香伊一区二区三区 | 亚洲一区二区三区免费在线 | 欧美性生活一区二区三区 | 国产精品日韩高清伦字幕搜索 | 国产精品中文字幕在线 | 国产一级片av | 久久99精品久久久久久狂牛 | 欧美精品1区| 成人精品一区二区三区 | 久久91 | 国产999精品久久久影片官网 | 亚洲精品久久久9婷婷中文字幕 | 欧美一级黄视频 | 色婷婷久久久亚洲一区二区三区 | 夜夜夜操 | 性视频网 | 日韩中文一区二区三区 |