成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一行代碼,Pandas秒變分布式,快速處理TB級數據

大數據 分布式
剛剛在Pandas上為十幾KB的數據做好了測試寫好了處理腳本,上百TB的同類大型數據集擺到了面前。這時候,你可能面臨著一個兩難的選擇:繼續用Pandas?可能會相當慢,上百TB數據不是它的菜。

剛剛在Pandas上為十幾KB的數據做好了測試寫好了處理腳本,上百TB的同類大型數據集擺到了面前。這時候,你可能面臨著一個兩難的選擇:

  • 繼續用Pandas?可能會相當慢,上百TB數據不是它的菜。

(ಥ_ಥ) 然而,Spark啊分布式啊什么的,學習曲線好陡峭哦~在Pandas里寫的處理腳本都作廢了好桑心哦~

別灰心,你可能真的不需要Spark了。

加州大學伯克利分校RiseLab最近在研究的Pandas on Ray,就是為了讓Pandas運行得更快,能搞定TB級數據而生的。這個DataFrame庫想要滿足現有Pandas用戶不換API,就提升性能、速度、可擴展性的需求。

研究團隊說,只需要替換一行代碼,8核機器上的Pandas查詢速度就可以提高4倍。

其實也就是用一個API替換了Pandas中的部分函數,這個API基于Ray運行。Ray是伯克利年初推出的分布式AI框架,能用幾行代碼,將家用電腦上的原型算法轉換成適合大規模部署的分布式計算應用。

Pandas on Ray的性能雖說比不上另一個分布式DataFrame庫Dask,但更容易上手,用起來和Pandas幾乎沒有差別。用戶不需要懂分布式計算,也不用學一個新的API。

與Dask不同的是,Ray使用了Apache Arrow里的共享內存對象存儲,不需要對數據進行序列化和復制,就能跨進程通訊。

 

在8核32G內存的AWS m5.2xlarge實例上,Ray、Dask和Pandas讀取csv的性能對比

它將Pandas包裹起來并透明地把數據和計算分布出去。用戶不需要知道他們的系統或者集群有多少核,也不用指定如何分配數據,可以繼續用之前的Pandas notebook。

前面說過,使用Pandas on Ray需要替換一行代碼,其實就是換掉導入語句。

 

  1. # import pandas as pd 
  2. import ray.dataframe as pd 

這時候你應該看到:

 

初始化完成,Ray自動識別了你機器上可用的核心,接下來的用法,就和Pandas一樣了。

Pandas on Ray目前還處于早期,實現了Pandas的一部分功能。以一個股票波動的數據集為例,它所支持的Pandas功能包括檢查數據、查詢上漲的天數、按日期索引、按日期查詢、查詢股票上漲的所有日期等等。

這個項目的最終目標是在Ray上完整實現Pandas API的功能,讓用戶可以在云上用Pandas。

目前,伯克利RiseLab的研究員們已經用45天時間,實現了Pandas DataFrame API的25%。

 

[[221787]]

革命尚未成功,項目仍在繼續。這些人都在為之努力:

Devin Petersohn, Robert Nishihara, Philipp Moritz, Simon Mo, Kunal Gosar, Helen Che, Harikaran Subbaraj, Peter Veerman, Rohan Singh, Joseph Gonzalez, Ion Stoica, Anthony Joseph

  • 更深入地了解Pandas on Ray請看RiseLab博客原文:https://rise.cs.berkeley.edu/blog/pandas-on-ray/
  • 試用Pandas on Ray請參考這個文檔:https://rise.cs.berkeley.edu/blog/pandas-on-ray/
  • 給Ray團隊提要求請到GitHub開issue:https://github.com/ray-project/ray/issues
  • 如果對Ray感興趣,可以讀一讀他們的論文:https://arxiv.org/abs/1712.05889
責任編輯:未麗燕 來源: 量子位
相關推薦

2020-02-19 15:02:23

代碼開發工具

2019-11-26 09:47:50

代碼開發工具

2019-12-25 14:08:50

Pandas數據計算

2020-05-15 09:32:50

TB數據Elasticsear

2020-08-19 10:30:25

代碼Python多線程

2015-08-03 09:15:00

300行代碼分布式系統

2016-12-02 08:53:18

Python一行代碼

2022-06-17 09:21:53

Pandas代碼透視表

2011-12-22 09:21:04

云計算Hadoop大數據

2022-03-01 08:40:34

StormHadoop批處理

2015-06-30 12:49:27

HBaseNoSQL分布式

2018-05-10 10:53:47

分布式架構負載均衡Web

2021-07-05 09:28:11

Flink分布式程序

2019-10-10 09:16:34

Zookeeper架構分布式

2024-11-28 10:56:55

2021-11-08 10:52:02

數據庫分布式技術

2017-09-01 05:35:58

分布式計算存儲

2019-06-19 15:40:06

分布式鎖RedisJava

2023-05-29 14:07:00

Zuul網關系統

2014-02-12 13:43:50

代碼并行任務
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一区二区免费视频 | 天天天插| 日韩欧美久久 | 免费国产一区二区视频 | 国产片侵犯亲女视频播放 | 91精品国产综合久久精品 | 精品一区二区不卡 | 国产免费a视频 | 日韩视频在线观看一区二区 | 成人免费视频网址 | 日韩av中文 | 国产精品久久久久久婷婷天堂 | 免费一级片 | 国产精品亚洲一区二区三区在线观看 | 欧一区二区 | 亚洲色在线视频 | 午夜激情在线 | 91色综合 | 日韩视频在线一区二区 | 91精品国产乱码久久久久久 | 亚洲永久精品国产 | 91精品麻豆日日躁夜夜躁 | 日本一区精品 | 久久国产成人精品国产成人亚洲 | av在线视 | 91一区二区三区 | 91精品免费视频 | 国产在线h | 三级国产三级在线 | 91麻豆精品国产91久久久更新资源速度超快 | 亚洲精品一区二区久 | 欧美a级成人淫片免费看 | 天天干视频网 | 午夜欧美 | 国产精品久久久久久久久久免费看 | 亚洲大片一区 | 国产精品久久一区二区三区 | 欧美一区二区三区视频 | 成年精品| 蜜桃传媒av | 国产精品视频一区二区三区, |