成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

比Spark快100倍的GPU加速SQL引擎!BlazingSQL開源了

新聞 開源 Spark
BlazingSQL 是基于英偉達 RAPIDS 生態系統構建的 GPU 加速 SQL 引擎,可以為各種 ETL 大數據集提供 SQL 接口,并且完全運行在 GPU 之上。

BlazingSQL 是基于英偉達 RAPIDS 生態系統構建的 GPU 加速 SQL 引擎,可以為各種 ETL 大數據集提供 SQL 接口,并且完全運行在 GPU 之上。近日,其研發團隊 宣布,BlazingSQL 基于 Apache 2.0 許可完全開源! 

開源項目地址:

https://github.com/blazingdb/pyBlazing/

關于 BlazingSQL

比Spark快100倍的GPU加速SQL引擎!BlazingSQL開源了

BlazingSQL 是一個基于英偉達 RAPIDS 生態系統構建的 GPU 加速 SQL 引擎。RAPIDS 包含一組軟件庫(BlazingSQL、cuDF、cuML、cuGraph),用來在 GPU 上執行端到端的數據科學計算和分析管道。RAPIDS 基于 Apache Arrow 列式存儲格式,其中 cuDF 是一個 GPU DataFrame 庫,用于加載、連接、聚合、過濾和操作數據。BlazingSQL 是面向 cuDF 的 SQL 接口,具備支持大規模數據科學工作流和企業數據集的各種功能。

官方稱,BlazingSQL(幾乎)可以處理任何你想要的數據。它的前身是 BlazingDB,但因為它并不是一個數據庫,所以研發團隊將 BlazingDB 改名為 BlazingSQL。

BlazingSQL 主要特性:

  • 查詢外部存儲數據 :僅需一行代碼就可以注冊遠程存儲解決方案,例如 Amazon S3。
  • 簡單的 SQL:非常容易使用,運行 SQL 查詢就能得到 GPU DataFrames(GDF)的查詢結果。
  • 互操作性:任意一個 RAPIDS 庫都可以訪問查詢到的 GDF,并用于任意的數據科學工作負載。

BlazingSQL 解決的痛點

  • 價格昂貴: 進行大規模數據科學研究通常需要包含數千臺服務器的集群,而 BlazingSQL + RAPIDS 運行相同規模的工作負載只需要其中一小部分基礎設施。
  • 速度慢: 在大型數據集上運行工作負載和查詢可能需要數小時或數天,而 BlazingSQL + RAPIDS 借助 GPU 加速可以在幾秒內得到結果,幫助數據科學家快速迭代新模型。
  • 復雜型: 數據科學工作負載通常基于小數據集開發出原型,然后針對分布式系統進行重建。BlazingSQL + RAPIDS 讓用戶能夠只編寫一次代碼,并且只需要一行代碼就能動態地改變分布式集群規模。

在開發團隊看來,迄今為止,SQL 是每一個主流分析生態系統的支柱之一,RAPIDS 是下一代分析生態系統,而 BlazingSQL 是 RAPIDS 的 SQL 標準。

BlazingSQL 完全基于 cuDF 和 cuIO 構建,這些項目的新功能會直接影響 BlazingSQL 的功能和性能。同時,由于 BlazingSQL 運行在 GDF 上,它與 RAPIDS 的所有庫都是 100%可互操作的。

如果你正在使用 RAPIDS,或者正在考慮使用 RAPIDS,BlazingSQL 將為你提供更多便利,包括但不限于:

  • 降低代碼復雜性:SQL 語句非常簡單,你可以用單個語句替換數十到數百個 cuDF 函數調用。
  • 連接到數據湖: 你不再需要同步其他數據庫,BlazingSQL 可以查詢云端或網絡文件系統中的任意原始文件。
  • 讓 RAPIDS 變得更快: 更先進的 SQL 優化器讓 RAPIDS 技術棧更智能地運行。

BlazingSQL 性能表現

目前,BlazingSQL+RAPIDS 已經上線 Google Colab,研發團隊在 GCP 上搭建了兩個價格相當的集群,一個用于 Spark,另一個用于 BlazingSQL。他們在集群上運行端到端的數據分析工作負載:從數據湖到 ETL/ 特征工程,再到 XGBoost 訓練,并對 Spark 和 BlazingSQL 的性能進行了對比測試。

研發人員在超過兩千萬行 Netflow 數據上運行兩次相同的特定工作負載。首先運行 BlazingSQL + RAPIDS,然后使用 PySpark(Spark 2.4.1)再次運行,得到如下結果:

如果把從 Google Drive 中加載 CSV 到各自 DataFrame 所需的時間考慮在內,BlazingSQL 比 Spark 快 71 倍。

比Spark快100倍的GPU加速SQL引擎!BlazingSQL開源了

越小越好

如果只看 ETL 時間,則 BlazingSQL 和 RAPIDS 的速度比 Spark 快 100 倍!

比Spark快100倍的GPU加速SQL引擎!BlazingSQL開源了

越小越好

運行以下 Colab 演示,用戶可以使用免費英偉達 T4 GPU 資源進行同樣的測試,對 BlazingSQL 的實際效果進行驗證:

https://colab.research.google.com/drive/1EbPE9FwFur7fE2054BH9s23Kd0FiUgGo

據 介紹,BlazingSQL 大部分性能提升來自團隊的內部引擎項目,BlazingSQL 團隊的工程師們希望開發一種專為 GPU DataFrames(GDF)構建的 GPU 執行內核,稱之為“SIMD 表達式解釋器”(SIMD Expression Interpreter)。研發團隊分享了一些關于 SIMD 表達式解釋器的細節,SIMD 表達式解釋器通過幾個關鍵步驟帶來提升性能:

  1. 接收多個輸入,包括 GDF 列、字面量,在不久的將來也會支持函數。
  2. 在加載這些輸入時,SIMD 表達式解釋器將對 GPU 寄存器的分配進行優化,這可以優化 GPU 線程占用率,并提高性能。
  3. 然后,虛擬機處理這些輸入,并生成多個輸出。假設有以下 SQL 查詢:
  1. SELECT colA + colB * 10,sin(colA) - cos(colD)FROM tableA 

在以前,BlazingSQL 會將這條查詢語句轉換為 5 個操作(+,*,sin,cos, - ),每個操作都需要單獨執行。在使用 SIMD 表達式解釋器后,它會同時接收(colA、colB、colD)作為輸入,并在單次內核執行中執行所有 5 個操作,最終生成兩個輸出。這意味著 colA 只需要加載一次,而不是兩次。

目前,SIMD 表達式解釋器支持 BlazingSQL 的過濾和投影,因此它對許多主流的 SQL 查詢都有影響。

如何使用 BlazingSQL

使用 BlazingSQL 在 Amazon S3 中查詢 CSV 文件的示例代碼:

  1. from blazingsql import BlazingContext 
  2. bc = BlazingContext() 
  3.  
  4. bc.s3('dir_name', bucket_name='bucket_name', access_key_id='access_key', secrect_key='secret_key'
  5.  
  6. # Create Table from CSV 
  7. bc.create_table('taxi''/dir_name/taxi.csv'
  8.  
  9. # Query 
  10. result = bc.sql('SELECT count(*) FROM taxi GROUP BY year(key)').get() 
  11. result_gdf = result.columns 
  12.  
  13. #Print GDF 
  14. print(result_gdf) 

更多 BlazingSQL 的操作方法參見:

GitHub 項目鏈接:https://github.com/blazingdb/pyBlazing/

官方網站:https://docs.blazingdb.com/docs/using-blazingsql

責任編輯:張燕妮 來源: AI前線
相關推薦

2024-03-26 10:13:54

日志引擎SigLens

2024-01-23 11:28:14

Eslint前端Oxlint

2021-06-11 09:21:20

開源SQL Parser詞法語法分析器

2015-11-25 14:39:51

LiFiWiFi

2022-10-27 08:31:31

架構

2021-07-28 14:20:13

正則PythonFlashText

2016-11-29 09:27:22

Apache SparDashboard構建

2021-08-03 06:57:36

Protocol Bu平臺Json

2017-09-06 11:18:14

2024-11-26 07:43:21

2025-01-20 08:17:00

代碼生成AI

2023-06-21 13:20:14

系統模型

2012-07-27 09:48:01

Google Fibe光纖寬帶寬帶

2022-10-31 15:35:16

開源引擎

2024-08-01 08:40:00

2022-08-09 09:10:31

TaichiPython

2023-04-07 08:17:39

fasthttp場景設計HTTP

2019-06-06 10:19:33

谷歌開源計算庫

2017-03-20 18:30:36

WI-FI紅外線

2019-11-01 10:49:21

技術開源應用
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产小视频 | 一区在线视频 | 99reav| 九色视频网站 | 精品国产99 | 久久精品国产免费看久久精品 | 久久乐国产精品 | 国产精品精品视频一区二区三区 | 欧美一级艳情片免费观看 | 91成人精品视频 | 粉嫩国产精品一区二区在线观看 | 日韩一级黄色毛片 | 在线黄色影院 | 欧美片网站免费 | 日本不卡免费新一二三区 | www久久 | 91在线视频在线观看 | 欧美在线a| 成人在线精品视频 | 久久亚洲国产 | 最新中文字幕第一页视频 | 婷婷综合激情 | 日韩中文字幕在线视频 | 日韩成人在线电影 | 日韩中文字幕在线不卡 | 男女污污动态图 | 国产激情在线 | xxx.在线观看 | 久草新视频 | 91亚洲精品在线 | 精品欧美视频 | 91视在线国内在线播放酒店 | 91在线看视频| 免费一二区 | 激情欧美一区二区三区中文字幕 | 国产精品伦一区二区三级视频 | 国产91丝袜在线播放 | 国产乱码精品一区二区三区忘忧草 | 男女污污动态图 | 精品一区二区三 | 中文字幕一区二区三区四区 |