成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據科學中一些不常用但很有用的Python庫

開發 后端 大數據
提到數據科學的python包,大家想到的估計是numpy,pandas,scikit-learn之類的,這里給大家介紹一些不常用,但是非常有用的python包,就像是癢癢撓,雖然大部分時間用不上,但是真要用起來,還是挺爽的。

導讀

提到數據科學的python包,大家想到的估計是numpy,pandas,scikit-learn之類的,這里給大家介紹一些不常用,但是非常有用的python包,就像是癢癢撓,雖然大部分時間用不上,但是真要用起來,還是挺爽的。

[[279538]]

Python是個了不起的語言。事實上,這是世界上發展最快的語言之一(感覺沒有之一,就是最快的)。在數據科學領域和開發領域,一次又一次的為我們提供便利。整個Python的生態和庫使之成為所有用戶都適用(初學者和高級用戶)。Python之所以這么成功,原因之一就在于它的庫,讓Python變得靈活快速。

這篇文章中,我們會看一些不太常用的數據科學的庫,除了pandas,scikit-learn,matplotlib等。盡管說到數據科學,我們想到的就是pandas和scikit-learn,了解一下其他的python的庫也沒什么壞處。下面就是另外一些數據科學中可能會用到的Python庫。

Wget

從網絡獲取數據是Python科學家非常重要的任務。Wget是一個免費的工具,可以從Web上非交互式的下載文件,支持HTTP, HTTPS, 和 FTP協議,同樣支持HTTP代理。由于是非交互式的,所以可以后臺運行,用戶沒有登錄也可以。所以下次你需要從網上下載圖片的時候,可以試試wget。

安裝:

  1. $ pip install wget 

例子:

  1. import wget 
  2. url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' 
  3. filename = wget.download(url) 
  4. 100% [................................................] 3841532 / 3841532 
  5. filename 
  6. 'razorback.mp3' 

Pendulum

這個是干啥的呢,你在處理日期時間的時候搞得頭大的時候,Pendulum就很適合你,這包是用來簡化日期時間的操作的,具體使用可以看 這里 。

安裝:

  1. $ pip install pendulum 

例子:

  1. import pendulum 
  2. dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto'
  3. dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver'
  4. print(dt_vancouver.diff(dt_toronto).in_hours()) 

imbalanced-learn

大多數的分類問題中,當所有的類別中的樣本的數量大致相同時,效果是最好的,也就是樣本均衡。但是在實際情況中,往往都是非均衡的數據,這往往會影響訓練的過程以及后面的預測。幸好,這個庫可以幫我們解決這個問題。這個和scikit-learn兼容,是scikit-learn-contrib的一部分。下次可以試試。

安裝:

  1. pip install -U imbalanced-learn 
  2. or 
  3. conda install -c conda-forge imbalanced-learn 

例子:

請參考文檔。

FlashText

在清洗NLP相關的數據的時候,往往需要替換一些關鍵詞或者提取一些關鍵詞。通常,可以用正則表達式來干這個活,不過正則條件的數量上千的時候,就會很頭大。FlashText是基于FlashText算法的一個模塊,提供了這種情況下的一個替代工具,FlashText最好的地方在于運行時間是和搜索的條件的數量不相關的。更多的信息可以看這里。

安裝:

  1. $ pip install flashtext 

例子:

提取關鍵詞

  1. from flashtext import KeywordProcessor 
  2. keyword_processor = KeywordProcessor() 
  3. # keyword_processor.add_keyword(<unclean name>, <standardised name>) 
  4. keyword_processor.add_keyword('Big Apple''New York'
  5. keyword_processor.add_keyword('Bay Area'
  6. keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.'
  7. keywords_found 
  8. ['New York''Bay Area'

替換關鍵詞

  1. keyword_processor.add_keyword('New Delhi''NCR region'
  2. new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.'
  3. new_sentence 
  4. 'I love New York and NCR region.' 

Fuzzywuzzy

名字聽起來怪怪的,不過在字符匹配的時候,用起來還是爽爽的。可以輕松的實現字符比例,token比例等。還可以在不同的數據集中進行匹配。

安裝:

  1. $ pip install fuzzywuzzy 

例子:

  1. from fuzzywuzzy import fuzz 
  2. from fuzzywuzzy import process 
  3. # Simple Ratio 
  4. fuzz.ratio("this is a test""this is a test!"
  5. 97 
  6. Partial Ratio 
  7. fuzz.partial_ratio("this is a test""this is a test!"
  8.  100 

PyFlux

時間序列的處理是機器學習領域經常遇到的問題。PyFlux就是專門用來處理時間序列問題的開源Python庫。這個庫里有一系列的時間序列模型如ARIMA, GARCH 和VAR 等。簡單來說,PyFlux提供了時間序列到概率的建模,值的一試。

安裝

  1. pip install pyflux 

例子

參考這里 。

Ipyvolume

交流結果是數據科學的非常重要的方面。結果可視化是個非常重要的優勢。IPyvolume是個3D可視化庫,不過這還是在pre-1.0的階段,可以這樣類別一下, IPyvolume是對3維數據的可視化,matplotlib是對二維數據的可視化。具體可以看 這里。

安裝

  1. Using pip 
  2. $ pip install ipyvolume 
  3. Conda/Anaconda 
  4. $ conda install -c conda-forge ipyvolume 

例子

  • 標記
數據科學中一些不常用但很有用的Python庫
  • 渲染
數據科學中一些不常用但很有用的Python庫

Dash

這是個創建web應用的用戶生產的Python框架。基于Flask寫的,可以用來構建數據可視化的app,這些app可以在網絡瀏覽器上渲染。用戶手冊可見 這里.

安裝

  1. pip install dash==0.29.0 # The core dash backend 
  2. pip install dash-html-components==0.13.2 # HTML components 
  3. pip install dash-core-components==0.36.0 # Supercharged components 
  4. pip install dash-table==3.1.3 # Interactive DataTable component (new!) 

例子

數據科學中一些不常用但很有用的Python庫

Gym

Gym來自OpenAI,用來做強化學習。兼容所有的數值計算庫,如TensorFlow,Theano等。這個庫提供了一個問題測試的環境,你可以用這個環境來實驗你的強化學習算法。這些環境共享界面,使你可以寫通用的算法。

安裝

  1. pip install gym 

例子

數據科學中一些不常用但很有用的Python庫

結論

這是我選的一些有用但是不常用的python庫,如果你知道其他的話,可以繼續添加,別忘了先試試。

 

責任編輯:華軒 來源: 今日頭條
相關推薦

2010-06-24 16:18:49

Linux Chatt

2011-07-05 11:24:52

SQL語句索引

2022-03-22 07:38:00

SQL語句MySQL

2012-12-24 14:51:02

iOS

2011-07-22 09:09:52

Oracle數據庫SQL效率

2016-12-14 19:19:19

Linuxgcc命令行

2021-08-17 10:34:19

Python數據科學機器學習

2023-08-02 16:14:04

2011-09-01 15:39:43

QT數據庫

2011-06-24 14:46:23

Qt

2022-08-23 09:01:02

HTMLWeb

2011-08-01 13:59:22

Oracle數據庫命名空間

2016-12-14 20:53:04

Linuxgcc命令行

2017-10-25 16:22:58

OpenStack操作Glance

2017-05-23 14:33:46

簡歷求職前端開發

2010-09-07 11:28:15

SQL語句

2021-08-28 11:47:52

json解析

2010-06-30 10:23:27

SQL Server數

2010-09-28 14:14:19

SQL語句

2009-08-13 09:49:16

C#關鍵字
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色毛片网站在线观看 | 黄色在线观看网址 | 精品久久久久久 | 亚洲一区二区三区四区五区午夜 | 亚洲日日 | 中文字幕精品一区久久久久 | 国产乱码久久久久久 | 欧美成人精品一区二区男人看 | 91中文| 麻豆视频国产在线观看 | 日本成人在线免费视频 | 一级毛片色一级 | 久久99深爱久久99精品 | 一本岛道一二三不卡区 | 国产一区二区三区免费视频 | 亚洲欧美在线一区 | 毛片毛片毛片毛片毛片 | 久久一二三区 | 91影院| 中文字幕第二区 | 亚洲一区二区在线视频 | 久久久tv| 亚洲在线一区 | 神马久久久久久久久久 | 久久999| 久久精品国产一区 | 日韩成人在线播放 | 男人天堂网av | 成人免费视频网址 | 免费看欧美一级片 | 久久一区二区三区四区五区 | 亚洲欧美在线观看 | 日韩欧美精品一区 | 亚洲精品视频一区 | 亚洲九色| av片免费| 久久久久久久91 | 亚洲一区二区中文字幕在线观看 | 成人在线视频观看 | 欧美一级片 | 成人中文字幕av |