成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

值得與Python結合使用的五個新穎的數據科學工具

譯文
開發 前端
你已經在使用NumPy、Pandas和scikit-learn了嗎?本文介紹了五個功能更強大的Python數據科學工具,有望在您的工具包中占有一席之地。

譯者 | 布加迪

審校 | 重樓

Python龐大的數據科學工具生態系統對用戶有很大的吸引力。生態系統如此龐大而豐富的唯一缺點是,有時最好的工具可能會被忽視。

下面介紹了其中幾款面向Python優秀的或不太知名的數據科學項目。Polars等一些項目得到了比以前更多的關注,但依然值得更廣泛的關注ConnectorX等其他工具則是隱藏的瑰寶。

1.ConnectorX

部分數據位于數據庫的某個地方,但計算操作通常在數據庫外進行。為實際工作從數據庫倒騰數據可能會減慢速度。ConnectorX數據從數據庫加載到Python中的許多常見數據整理工具中,并通過盡量減少要完成的工作量來保持速度。

后面討論的Polars一樣ConnectorX在其核心使用Rust庫。這便于優化比如說能夠在分區的同時從數據源加載數據。PostgreSQL中的數據可以通過指定分區列來加載。

除了PostgreSQL, ConnectorX還支持從MySQL/MariaDBSQLiteAmazon RedshiftMicrosoft SQL ServerAzure SQL以及Oracle讀取數據。結果可以匯集到PandasPyArrow或者通過PyArrow匯集到Modin、Dask或Polars

2.DuckDB

使用Python的數據科學人員應該了解SQLite,這是一種用Python打包的小巧、但功能強大且快速的關系數據庫。由于它作為進程內庫來運行不是作為單獨的應用程序運行,因此屬于輕量級,且響應迅速。

DuckDB有點像有人回答這個問題:“如果我們設計面向OLAP的SQLite會怎么樣?”與其他OLAP數據庫引擎一樣,它使用列式數據存儲,針對長時間運行的分析查詢工作負載進行了優化。但是它提供了您期望從傳統數據庫獲得的所有功能,比如ACID事務。而且沒有單獨的軟件套件需要配置您使用單單一個pip install命令,即可在Python環境中讓它運行起來

DuckDB可以直接攝取采用CSV、JSON或Parquet格式的數據。為了提高效率,還可以根據鍵(比如按年和按月)將生成的數據庫劃分為多個物理文件。查詢起來與任何其他基于SQL的關系數據庫似,但擁有額外的內置特性,比如能夠獲取數據的隨機樣本或構造窗口函數。

DuckDB一小批實用的擴展包括全文搜索Excel導入/導出直接連接到SQLite和PostgreSQLParquet文件導出以及支持許多常見的地理空間數據格式和類型。

3.Optimus

最繁瑣的工作之一就是清理和準備數據,用于以DataFrame為中心的項目。Optimus是一種一體化工具集,可用于加載、探索清理數據,以及將數據寫回眾多數據源

Optimus可以使用Pandas、Dask、CUDF及Dask + CUDF、Vaex或Spark作為層數據引擎。數據可以從Arrow、Parquet、Excel、各種常見的數據庫源或平面文件格式(比如CSV和JSON加載,并保存成這些格式

數據操作API類似Pandas,但添加了.rows()和.cols()訪問器,以便易于執行對數據框排序、按列值篩選、根據標準更改數據或根據某些標準縮小操作范圍之類的操作。Optimus還隨帶處理器,用于處理常見的實際數據類型,比如電子郵件地址和URL

Optimus可能存在一個問題是,它仍在積極開發中,但上一次正式發布是在2020年。這意味著它可能不像堆棧中的其他組件那樣是最新的。

4.Polars

如果您花費大量時間來處理DataFrame,并且對Pandas的性能限制感到沮喪,不妨使用Polars。這個面向Python的DataFrame庫提供了類似Pandas的便捷語法。

過與Pandas不同的是,Polars使用了一個用Rust編寫的庫,可以直接最大限度地利用您的硬件您不需要使用特殊語法利用并行處理或SIMD等提升性能功能都是自動可以利用的。就連像從CSV文件讀取這樣的簡單操作也更快了。

Polars還提供了即時和延遲執行模式,因此查詢可以立即執行,也可以延遲到需要時執行。它還提供了流式API,用于增量處理查詢,不過許多函數還不能使用流式API。Rust開發人員可以使用pyo3制作自己的Polars擴展。

5.Snakemake

數據科學工作流很難建立,更難以一致的、可預測的方式建立。Snakemake的創建就是為了實現這一點在Python中自動建立數據分析機制同時確保其他人都能得到與您相同的結果。許多現有的數據科學項目都依賴Snakemake。數據科學工作流中的不定因素越多,就越有可能受益于用Snakemaker自動化處理工作流

Snakemake工作流類似GNU make工作流您用規則定義想要創建的東西,這些規則定義了它們接受什么、輸出什么以及執行什么命令來做到這一點。工作流規則可以是多線程的假設這會給它們帶來好處,配置數據可以從JSON/YAML文件通過管道導入。您還可以在工作流中定義函數來轉換用于規則中數據,并將在每個步驟采取的操作寫入日志。

Snakemake作業旨在可移植——它們可以部署任何Kubernetes管理的環境中,或部署到特定的云環境中,比如Google Cloud Life Sciences或AWS上的Tibanna。工作流可以被凍結”,以使用一具體的軟件包,并且任何成功執行的工作流都可以自動生成單元測試,并加以存儲若是長期存檔,您可以將工作流存儲為打包文件(tarball)

原文標題:5 newer data science tools you should be using with Python,作者:Serdar Yegulalp

責任編輯:華軒 來源: 51CTO
相關推薦

2018-11-01 08:49:28

數據科學數據科學工具數據分析

2021-04-26 08:28:55

數據科學機器學習數據科學工具

2023-12-01 15:10:56

2018-12-17 09:00:00

大數據數據科學工具

2022-08-16 10:32:08

Python數據科學

2022-06-01 13:52:11

開源大數據

2020-02-12 11:54:32

網絡戰模擬工具網絡攻擊網絡安全

2020-06-10 07:54:11

PythonSQL數據科學

2022-08-15 14:36:21

Python數據科學編程語言

2016-08-31 16:39:59

PythonRC++

2016-08-10 13:51:23

PythonR異常處理

2020-09-08 15:15:06

Python數據科學Python庫

2013-11-27 10:36:47

命令行工具ping工具

2019-09-18 20:39:07

數據科學自動化工具機器學習

2016-10-26 09:55:31

商業智能

2023-08-24 16:28:44

程序員工具

2025-01-20 09:10:00

2022-02-10 15:22:05

Python開發數據科學

2021-01-03 19:54:53

Python數據科學數據分析

2021-01-04 09:55:45

Python開發數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品美女久久久 | 欧美亚洲日本 | 久久高清国产视频 | 亚洲欧美国产毛片在线 | 一区二区三区电影在线观看 | 99re视频在线 | 欧美成人精品一区二区男人看 | 美女久久 | 国产成人精品999在线观看 | 欧美综合久久久 | 91久久精品国产免费一区 | av片免费观看 | 亚洲综合色婷婷 | 91免费入口 | 91不卡 | 日韩电影一区 | 亚洲 欧美 日韩 在线 | 亚洲国产aⅴ精品一区二区 免费观看av | 精品不卡| 亚洲精品女优 | 精品伊人 | 精品国产免费一区二区三区五区 | 美国av毛片| 久久爆操 | 久久手机视频 | 中文字幕乱码一区二区三区 | 91麻豆精品一区二区三区 | 一区二区三区在线免费看 | 亚洲成人精品国产 | 91天堂网 | 国产精品久久777777 | 91久久精品日日躁夜夜躁欧美 | 毛片视频观看 | 日韩一区二区三区在线观看 | 亚洲一一在线 | 日韩欧美一区二区三区 | 国产精品99久久久久久大便 | 日韩福利片 | 免费色网址 | 超碰成人免费观看 | 国产色婷婷久久99精品91 |