成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一位數據科學家的私房工具清單

大數據
近日北卡來羅納大學CTO,一位數據科學家Jefferson Heard分享了多年來收集沉淀的數據分析工具集。請看正文

作為一位萬人敬仰的數據科學家,不但需要培育一棵參天技能樹,私人武器庫里沒有一票玩得轉的大火力工具也是沒法在江湖中呼風喚雨的。

[[182458]]

近日北卡來羅納大學CTO,一位數據科學家Jefferson Heard分享了多年來收集沉淀的數據分析工具集:

處理較大、較復雜的類excel數據

  • Pandas -處理tabular(類似Excel)數據的通用工具套件
  • SQLite – Tabular數據庫格式,能夠處理大規模數據集,同時也能在桌面環境運行。
  • PostgreSQL – 企業級數據庫系統

處理空間、地理數據:

  • PostGIS – Postgres的地理空間數據類型擴展
  • Carto – 地理空間數據的商業數據挖掘工具
  • Mapbox – 商業地圖繪制工具,同時也是一個web地圖系統。
  • Leaflet – 基于網絡資源和本地數據開發活動web地圖的代碼庫
  • qGIS – 適用于幾乎所有地理空間和地圖繪制的圖形化GIS工具

處理非常規數據:

  • RethinkDB – 處理實時數據流非常棒的數據庫,正在從商業轉開源,小心使用。
  • MongoDB – 處理大規模非結構化和半結構化數據的流行數據庫,應用于生產環境需要加小心。
  • CouchDB – 與MongoDB有些類似但不盡相同。
  • Cassandra – 圖譜和關系數據庫

為大規模數據集創建性能代碼:

  • Pandas – Python下一個開源數據分析的庫,它提供的數據結構DataFrame極大的簡化了數據分析過程中一些繁瑣操作。
  • Apache Spark – 一個通用的高性能數據處理系統
  • SciPy and Numpy -可編寫腳本的基于C的數值算法,能在緊湊的,底層機器數據架構上運行。
  • Cython – 使用用C編譯器的Python編譯器,用來提升Python性能。
  • PyOpenCL – 在圖形顯卡上進行數值計算和統計處理。

數據清洗工具

  • ODO – 在不同數據格式間進行轉換的Python庫。
  • OpenRefine – 擁有圖形用戶界面的數據發現和清洗工具
  • Pandas – 數據科學任務中用來處理tabular數據的通用Python工具集
  • Scrapy – Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。
  • BeautifulSoup – 與Scrapy類似但不盡相同
  • Scrubadub – 去除個人身份信息
  • Arrow – 幫你輕松駕馭日期和時間戳的Python庫
  • DataCleaner – 剔除臟數據的Python庫
  • Dora – 與DataCleaner功能類似的Python庫。

數據可視化工具

  • Processing – 交互式開發交互式可視化內容. 推薦讀本:Visualizing
  • DataD3 – 在web上開發可視化交互
  • C3 – 來自D3的圖表.
  • Bokeh – 與D3類似, 但基于Python.
  • matplotlib – 最早的Python數據可視化工具集。
  • Leaflet – 一個為開發移動設備友好的互動地圖的開源 JavaScript 庫。
  • MapBox -詳見地圖工具集。
  • qGIS – 詳見地圖工具集。
  • VTK – 在醫療、和物理研究領域常用的重型可視化工具包。

數據挖掘和機器學習工具

  • Weka – 一個機器學習和數據挖掘工具包,這里有一本免費可讀的參考書
  • ciKitLearn – 基于Python的機器學習和數據挖掘工具套件。
  • Orange – 另一個基于Python的數據挖掘工具套件,同樣擁有圖形用戶界面。
  • TensorFlow – Google開源的多維度圖譜數學建模工具。

分享、協作以及知識管理工具

  • Django -基于Python的web框架
  • Django REST Framework – 為Django網站創建 REST APIs
  • IRODS – 企業級數據存儲和管理,包括元數據管理和基于規則的數據處理。
  • Cassandra (useful for metadata and relationship storage) – 一個存儲和查詢元數據經常用到的開源分布式數據管理系統
  • GitLab -GitHub的開源替代品,可搭建私人服務器。
  • ReciPy –
  • Prov – Python implementation of the W3C provenance model
  • Kanren (部署基于元數據和數據源信息的業務邏輯非常有用) – 一個描述性Python邏輯編程系統,非常適合科學元數據的查詢和基于規則的處理。
責任編輯:未麗燕 來源: IT經理網
相關推薦

2020-05-11 13:46:34

數據科學家數據科學大數據

2017-08-04 15:53:10

大數據真偽數據科學家

2019-01-23 09:36:02

數據科學項目數據科學數據科學家

2018-05-22 09:07:54

數據科學語言職位

2016-08-02 17:00:12

Hadoop大數據系統

2012-12-26 10:51:20

數據科學家

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數據科學家數據模型

2018-02-28 15:03:03

數據科學家數據分析職業

2015-08-26 13:11:54

數據Python

2015-08-25 13:20:29

數據科學

2016-04-11 14:15:06

數據科學數據挖掘工具

2020-03-20 14:40:48

數據科學Python學習

2018-10-16 14:37:34

數據科學家數據分析數據科學

2012-06-12 09:33:59

2017-12-29 16:39:22

數據科學家語言Python

2020-08-10 06:18:24

應用程序代碼開發

2016-08-17 09:50:27

大數據數據科學家

2013-04-11 10:03:55

2016-10-21 19:59:43

數據科學家數據科學
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 可以免费观看的av片 | 欧美色偷拍 | 日本淫视频 | 色天天综合 | 国产精品一区在线观看你懂的 | 日本一区二区三区免费观看 | 欧美视频二区 | 欧美日韩精品区 | 亚洲精品第一页 | av在线免费观看网址 | 精品成人免费一区二区在线播放 | 亚洲区一区二区 | 麻豆亚洲 | 91伊人| 高清av在线| www.五月天婷婷 | 国产欧美一区二区久久性色99 | 日本国产精品视频 | 成人深夜福利 | 91成人在线| 欧美国产一区二区 | 国产精品亚洲一区二区三区在线 | 中文字幕一区二区三区乱码图片 | 亚洲精品视频一区二区三区 | 一二区成人影院电影网 | 超碰av人人| 亚洲欧美日韩一区二区 | 97视频在线观看网站 | 亚洲欧美日韩精品久久亚洲区 | 天天爱av| 人人九九精 | 欧美狠狠操 | 涩涩视频网站在线观看 | 久久久国产精品一区 | 中文字幕亚洲一区二区三区 | 国产成人一区二区三区精 | 国产精品视屏 | 精品国产99 | 天天色天天射天天干 | 91成人小视频 | 成年无码av片在线 |