成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

少有人知的Python數據科學庫

新聞 后端
Python是門很神奇的語言,歷經時間和實踐檢驗,受到開發者和數據科學家一致好評,目前已經是全世界發展最好的編程語言之一。

[[259841]]

 Python是門很神奇的語言,歷經時間和實踐檢驗,受到開發者和數據科學家一致好評,目前已經是全世界發展***的編程語言之一。簡單易用,完整而龐大的第三方庫生態圈,使得Python成為編程小白和高級工程師的***。

在本文中,我們會分享不同于市面上的python數據科學庫(如numpy、padnas、scikit-learn、matplotlib等),盡管這些庫很棒,但是其他還有一些不為人知,但同樣優秀的庫需要我們去探索去學習。

1. Wget

從網絡上獲取數據被認為是數據科學家的必備基本技能,而Wget是一套非交互的基于命令行的文件下載庫。ta支持HTTP、HTTPS和FTP協議,也支持使用IP代理。因為ta是非交互的,即使用戶未登錄,ta也可以在后臺運行。所以下次如果你想從網絡上下載一個頁面,Wget可以幫到你哦。

安裝

  1. pip isntall wget 

用例

  1. import wget 
  2.  
  3. url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' 
  4.  
  5. filename = wget.download(url) 

Run and output

  1. 100% [................................................] 3841532 / 3841532 
  2. filename 
  3. 'razorback.mp3' 

2. Pendulum

對于大多數python用戶來說處理時期(時間)數據是一件令人抓狂的事情,好在Pendulum專為你而來。它是python內置時間類的良好備選方案,更多內容可查看官方文檔 https://pendulum.eustace.io/docs/

安裝

  1. pip install pendulum 

用例

  1. import pendulum 
  2.  
  3. dt_toronto = pendulum.datetime(201211, tz='America/Toronto'
  4. dt_vancouver = pendulum.datetime(201211, tz='America/Vancouver'
  5. print(dt_vancouver.diff(dt_toronto).in_hours()) 

Run and output

  1. 3 

3.imbalanced-learn

常見的機器學習分類算法都默認輸入的數據是均衡數據,即假設訓練集數據有A和B兩個類別,A和B數據量大體相當。如果A和B數據量差別巨大,那么訓練的效果會不理想。在實際收集和整理的數據,其實絕大多數是非均衡數據,這對于機器學習分類算法真的是個很大的問題。好在有imbalanced-learn庫可以很好的解決這個問題。該庫兼容scikit-learn,并且是作為scikit-learn-contrib項目的一部分。當你再遇到非均衡數據,記得試試它哦!

安裝

  1. pip install -U imbalanced-learn 
  2. #或者 
  3. conda install -c conda-forge imbalanced-learn 

該庫有高質量的文檔 http://imbalanced-learn.org/en/stable,目前該庫支持scikit-learn、keras、tensorflow庫

4. FlashText

在NLP任務重經常會遇到替換指代同一個意思的多個詞語,或者從句子中抽取關鍵詞。通常我們一般的做法是使用正則表達式來完成這些臟活累活,但如果要操作的詞語數量達到幾千上萬,使用正則這種方法就會變得很麻煩。FlashText庫是基于FlashText算法,該庫的***大之處在于程序運行時間不受操作詞語數量影響,即運行時間與操作的詞匯數量無關。 因此特別適合應用到 python文本分析 中去。

4.1 安裝

  1. pip install flashtext 

4.2 用例

4.2.1 抽取關鍵詞

我們都知道 Big Apple 指代紐約。所以抽取紐約這個城市詞時候,我們要考慮到相同意思的不同詞語。

  1. from flashtext import KeywordProcessor 
  2.  
  3. #設置關鍵詞處理器 
  4. keyword_processor = KeywordProcessor() 
  5.  
  6. #設置關鍵詞及其近義詞 
  7. keyword_processor.add_keyword('Big Apple''New York'#遇到Big Apple就會識別為New York 
  8. keyword_processor.add_keyword('Bay Area'
  9.  
  10. keywords_found = keyword_processor.extract_keywords("I love Big Apple and Bay Area."
  11.  
  12. keywords_found 

Run and output

  1. ['New York''Bay Area'
4.2.2 替換關鍵詞

我們也經常需要將原始文本進行處理,比如將New Delhi(新德里)替換為NCR region(國家首都區)

  1. keyword_processor.add_keyword('New Delhi''NCR region'
  2. new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.'
  3. new_sentence 

Run and output

  1. 'I love New York and NCR region.' 

想了解更多,請查看FlastText官方文檔

https://flashtext.readthedocs.io/en/latest/#

5. Fuzzywuzzy

這個庫的名字就有點怪,但ta擁有強大的字符串匹配功能。可以輕松實現字符串比較比率(comparison ratios),分詞比率(token ratios)等操作。它還可以方便地匹配保存在不同數據庫中的記錄。

安裝

  1. pip install fuzzywuzzy 

用例

  1. from fuzzywuzzy import fuzz 
  2. from fuzzywuzzy import process 
  3.  
  4. # Simple Ratio 
  5. print(fuzz.ratio("this is a test""this is a test!")) 
  6. # Partial Ratio 
  7. print(fuzz.partial_ratio("this is a test""this is a test!")) 

Run and output!

  1. 97 
  2. 100 

更多有趣的例子可見 fuzzywuzzy庫github賬號 https://github.com/seatgeek/fuzzywuzzy

6.PyFlux/PyFTS.

在機器學習領域中經常遇到時間序列分析這種問題。PyFlux是專門為解決時間序列問題而開發的python庫。這個庫提供了很多現代時間序列算法,單不僅僅限于ARIMA、GARCH和VAR這三種模型。簡而言之,PyFlux為我們分析時間序列數據提供了可能,你值得擁有。

安裝

  1. pip install pyflux 

PyFlux用例可查看該庫的文檔 https://pyflux.readthedocs.io/en/latest/index.html

類似的時間序列庫還有PyFTS, 教程鏈接

https://towardsdatascience.com/a-short-tutorial-on-fuzzy-time-series-dcc6d4eb1b15 

文檔鏈接 

https://pyfts.github.io/pyFTS/.

7.Ipyvolume

數據科學中一個重要的部分就是分析結果的展示與交流,而良好的視覺傳達是很有優勢的。IPyvolume是3D可視化庫,可以以最小的初始化設置就能在jupyter notebook中使用。做一個恰當的類比:matplotlib的imshow是2d數組,而IPyvolume的volshow是3d數組。

安裝

  1. pip install ipyvolume 
  2. #或者 
  3. conda install -c conda-forge ipyvolume 

用例

8. Dash

Dash是用來為開發web應用的高生產率工具庫,該庫基于Flask、Plotly.js和React.js,不需要懂javascript只用python就能讓我們制作出美美的的UI元素,如下來列表、滑動條和圖表。這些應用可以在瀏覽器中渲染,具體文檔可查看 https://dash.plot.ly/

安裝

  1. pip install dash==0.29.0   
  2. pip install dash-html-components==0.13.2  #Dash庫的HTML組件 
  3. pip install dash-core-components==0.36.0  #Dash庫核心組件 
  4. pip install dash-table==3.1.3  #交互數據庫表單(新) 

用例

下面是一個下拉式菜單,可以選擇股票代碼的pandas Dataframe數據類型作為輸入,渲染成動態交互的折線圖

9. Gym

Gym是一個可以開發強化學習算法的工具包。 它兼容數值計算庫,如TensorFlow或Theano。我們可以據此設計出強化學習算法,這些環境(測試問題)有公開的接口,允許我們寫出通用的算法。

安裝

  1. pip install gym 

用例

比如研究探月飛行器著落月球,科學家需要考慮如何才能準確著落到某個位置,并且保證安全降落。這就需要用到gym來做強化學習,學到規律

[[259842]]

責任編輯:張燕妮 來源: 大鄧和他的Python
相關推薦

2020-07-19 15:39:37

Python開發工具

2018-12-10 19:30:45

2018-06-04 22:27:47

2015-08-26 13:11:54

數據Python

2021-04-09 23:11:25

Python程序開源

2019-11-05 10:07:26

數據科學Python

2018-06-27 10:45:12

數據Python程序

2020-07-03 18:05:04

Python開發工具

2020-05-15 10:22:07

Python開發工具

2019-11-01 13:37:53

Python數據結構編程語言

2022-09-01 23:17:07

Python編程語言開發

2020-11-25 08:00:00

數據分析人工智能技術

2021-01-13 15:13:07

Python開發 工具

2024-08-06 09:51:21

SpringHTTPJSON

2018-09-18 23:25:49

Python數據科學

2018-08-06 13:46:07

編程語言Python數據科學庫

2021-05-27 05:25:59

Python數據處理數學運算

2021-02-01 11:03:26

數據科學庫數據科學家數據科學

2019-10-30 12:24:57

網絡安全安全風險網絡攻擊

2020-08-17 08:17:00

大數據人工智能技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产色99精品9i | 卡通动漫第一页 | 久久久久亚洲精品 | 日日摸夜夜爽人人添av | 一区二区三区小视频 | 在线观看日本高清二区 | 成人在线视频一区 | 国产精品一区二区在线播放 | 99视频网| 国产精品久久久久久吹潮 | 欧美国产中文字幕 | 国产成人免费 | 一级黄色片日本 | 国产高清在线视频 | 欧美综合一区二区三区 | 日本大香伊一区二区三区 | 激情av免费看 | 小h片免费观看久久久久 | 精品国产不卡一区二区三区 | 国产一区日韩在线 | 人人干人人艹 | 成人片免费看 | 精品国产91乱码一区二区三区 | 国产亚洲精品久久yy50 | 一区二区三区在线免费观看 | 欧美在线一区视频 | 欧美精品一区在线 | 亚洲综合精品 | 亚洲日韩中文字幕 | 久久精品国产久精国产 | 亚洲欧美国产精品久久 | 国产中文原创 | 国产高清久久久 | 欧美在线视频网站 | 日韩亚洲欧美一区 | 中文字幕 国产 | 中文字幕亚洲视频 | 国产免费一区二区三区 | 日韩成人性视频 | 欧美日韩在线免费观看 | 久久久这里只有17精品 |