成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

選型指南:詳解八大支持機(jī)器學(xué)習(xí)的數(shù)據(jù)庫

數(shù)據(jù)庫 其他數(shù)據(jù)庫 機(jī)器學(xué)習(xí)
本文中介紹的這些數(shù)據(jù)庫盡管在方法和功能上存在差異,但是都允許用戶在數(shù)據(jù)所在的位置上構(gòu)建機(jī)器學(xué)習(xí)模型。

選擇平臺的首要原則是“靠近數(shù)據(jù)”,讓代碼靠近數(shù)據(jù)是保持低延遲的必要條件。

機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)往往會多次遍歷所有數(shù)據(jù)(遍歷一次被稱為一個epoch)。對于非常大的數(shù)據(jù)集來說,理想的情況是在存儲數(shù)據(jù)的地方建立模型,這樣就不需要大量的數(shù)據(jù)傳輸。目前已經(jīng)有部分?jǐn)?shù)據(jù)庫在一定程度上支持這種功能。我們會很自然地問到一個問題,即哪些數(shù)據(jù)庫支持內(nèi)部機(jī)器學(xué)習(xí),它們又是如何做到的?下面我將對這些數(shù)據(jù)庫進(jìn)行探討。

[[412195]]

Amazon Redshift

Amazon Redshift為托管的PB級數(shù)據(jù)倉庫服務(wù),旨在讓使用現(xiàn)有商業(yè)智能工具對數(shù)據(jù)進(jìn)行分析的工作變得更加簡單且經(jīng)濟(jì)高效。其專門針對數(shù)據(jù)集進(jìn)行了優(yōu)化,成本合算下來每年每TB不到1000美元。

Amazon Redshift ML可讓SQL用戶能夠更加輕松地使用SQL命令創(chuàng)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。Redshift SQL中的CREATE MODEL命令可定義用于訓(xùn)練和目標(biāo)列的數(shù)據(jù),然后通過同一區(qū)域中加密的Amazon S3 bucket將數(shù)據(jù)傳輸給Amazon SageMaker Autopilot以用于訓(xùn)練。

在AutoML訓(xùn)練之后,Redshift ML將編譯最佳模型并將其注冊為Redshift集群中的預(yù)測函數(shù)。隨后,用戶可以通過在SELECT語句中調(diào)用預(yù)測函數(shù)的方式調(diào)用模型進(jìn)行推測。

總結(jié):通過SQL語句,Redshift ML可使用SageMaker Autopilot利用指定數(shù)據(jù)自動創(chuàng)建預(yù)測模型。在這過程中,SQL語句會被提取到S3 bucket中。最佳的預(yù)測函數(shù)會被注冊在Redshift集群中。

BlazingSQL

BlazingSQL是一個建立在RAPIDS生態(tài)系統(tǒng)頂層上的由GPU加速的SQL引擎,雖然是開源項(xiàng)目,但是提供付費(fèi)服務(wù)。RAPIDS為一套得到了Nvidia支持的開源軟件庫和API,其使用了CUDA并且采用了Apache Arrow列式內(nèi)存格式。作為RAPIDS的一部分,cuDF為一個類似于Pandas的GPU數(shù)據(jù)幀庫,主要用途是對數(shù)據(jù)進(jìn)行加載、連接、聚合、過濾等操作。

開源工具Dask可將Python套件擴(kuò)展到多臺機(jī)器上。此外,Dask還可在同一系統(tǒng)或多節(jié)點(diǎn)集群中通過多個GPU分發(fā)數(shù)據(jù)和計算。整合了RAPIDS cuDF、XGBoost和RAPIDS cuML的Dask可用于GPU加速的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)當(dāng)中。

總結(jié):BlazingSQL可以在Amazon S3的數(shù)據(jù)湖上運(yùn)行GPU加速的查詢,然后將生成的數(shù)據(jù)幀傳輸給cuDF進(jìn)行數(shù)據(jù)操作,最后再使用RAPIDS XGBoost和cuML執(zhí)行機(jī)器學(xué)習(xí),或是使用PyTorch和TensorFlow執(zhí)行深度學(xué)習(xí)。

谷歌Cloud BigQuery

BigQuery是谷歌Cloud托管理的PB級數(shù)據(jù)倉庫。用戶可以通過BigQuery對大量數(shù)據(jù)進(jìn)行近實(shí)時分析。BigQuery ML允許用戶使用SQL查詢在BigQuery中創(chuàng)建和執(zhí)行機(jī)器學(xué)習(xí)模型。

BigQueryML支持用于預(yù)測的線性回歸、用于分類的二元多類邏輯回歸、用于數(shù)據(jù)分割的K-均值聚類、用于創(chuàng)建產(chǎn)品推薦系統(tǒng)的矩陣分解、用于執(zhí)行時間序列預(yù)測的時間序列、XGBoost分類和回歸模型、分類和回歸模型專用的基于TensorFlow的深度神經(jīng)網(wǎng)絡(luò)、AutoML Tables、TensorFlow模型導(dǎo)入。用戶可以使用來自多個BigQuery數(shù)據(jù)集的數(shù)據(jù)模型進(jìn)行訓(xùn)練和預(yù)測。雖然BigQuery ML不會從數(shù)據(jù)倉庫中提取數(shù)據(jù),但是用戶可以使用CREATE MODEL語句中的TRANSFORM子句,通過BigQuery ML執(zhí)行特征工程。

總結(jié):BigQuery ML通過SQL語法將谷歌Cloud機(jī)器學(xué)習(xí)引入到了BigQuery數(shù)據(jù)倉庫,從而不從數(shù)據(jù)倉庫中提取數(shù)據(jù)。

IBM Db2 Warehouse

雖然IBM Db2 Warehouse是一個托管的公有云服務(wù),但是用戶可以在本地或在私有云中部署它們。作為一個數(shù)據(jù)倉庫,IBM Db2 Warehouse包含有內(nèi)存數(shù)據(jù)處理和用于在線分析處理的列式表格等功能。其Netezza技術(shù)提供了強(qiáng)大的分析功能,可高效查詢數(shù)據(jù)。此外,IBM Db2 Warehouse的大量的庫和函數(shù)可以幫助用戶獲得所需的精確洞察力。

Db2 Warehouse支持Python、R和SQL中的數(shù)據(jù)庫機(jī)器學(xué)習(xí)。IDAX模塊中有分析存儲程序,包括方差分析、關(guān)聯(lián)規(guī)則、數(shù)據(jù)轉(zhuǎn)換、決策樹、診斷、K均值聚類、K近鄰、線性回歸、元數(shù)據(jù)管理、naive貝葉斯分類、主要素分析、概率分布、隨機(jī)抽樣、回歸樹、序列模式與規(guī)則,以及參數(shù)和非參數(shù)統(tǒng)計等等。

總結(jié):IBM Db2 Warehouse包含一系列數(shù)據(jù)庫內(nèi)SQL分析,例如一些基本的機(jī)器學(xué)習(xí)功能。此外,IBM Db2 Warehouse對R和Python也提供數(shù)據(jù)庫內(nèi)支持。

Kinetica

Kinetica 流數(shù)據(jù)倉庫(Streaming Data Warehouse)將以往的流數(shù)據(jù)分析與本地的智能和人工智能整合在了一個單一的平臺上,所有這些都可以通過API和SQL進(jìn)行訪問。Kinetica為GPU加速數(shù)據(jù)庫,不僅具有快速、分布式、柱狀和內(nèi)存優(yōu)先等特點(diǎn),還整合了過濾、可視化和聚合等功能。

為了實(shí)現(xiàn)大規(guī)模的實(shí)時預(yù)測分析,Kinetica將機(jī)器學(xué)習(xí)模型和算法與用戶的數(shù)據(jù)集成在一起,并且允許用戶對分析數(shù)據(jù)管道、機(jī)器學(xué)習(xí)模型、數(shù)據(jù)工程的生命周期以及流計算功能進(jìn)行優(yōu)化。Kinetica為GPU加速的機(jī)器學(xué)習(xí)提供了一個全生命周期解決方案,包括管理Jupyter筆記本,通過RAPIDS進(jìn)行模型訓(xùn)練,以及Kinetica平臺中的自動模型部署和推理。

總結(jié):Kinetica為GPU加速的機(jī)器學(xué)習(xí)提供了一個完整的數(shù)據(jù)庫生命周期解決方案,并且可以利用流數(shù)據(jù)進(jìn)行預(yù)測。

微軟SQL Server

微軟SQL Server機(jī)器學(xué)習(xí)服務(wù)在SQL Server RDBMS中支持R、Python、Java、PREDICT T-SQL命令和rx_Predict存儲程序,在SQL Server Big Data Clusters中支持SparkML。在R和Python語言中,微軟提供了多個用于機(jī)器學(xué)習(xí)的套件和庫。用戶可以將經(jīng)過訓(xùn)練的模型存儲在數(shù)據(jù)庫中或是數(shù)據(jù)庫外部。Azure SQL Managed Instance支持Python和R專用的Machine Learning Services進(jìn)行預(yù)覽。

R語言可以處理來自磁盤和內(nèi)存中的數(shù)據(jù)。SQL Server提供了一個擴(kuò)展框架,以便R、Python和Java代碼可以使用SQL Server數(shù)據(jù)和函數(shù)。SQL Server Big Data Clusters可在Kubernetes中運(yùn)行SQL Server、Spark和HDFS。當(dāng)SQL Server調(diào)用Python代碼時,Azure機(jī)器學(xué)習(xí)也可以被調(diào)用,生成的模型將被保存在數(shù)據(jù)庫中以用于預(yù)測。

總結(jié):當(dāng)前版本的SQL Server可使用多種編程語言訓(xùn)練和推斷機(jī)器學(xué)習(xí)模型。

甲骨文數(shù)據(jù)庫

甲骨文云基礎(chǔ)設(shè)施(OCI) Data Science 是一款托管無服務(wù)器平臺,可供數(shù)據(jù)科學(xué)團(tuán)隊使用包括Oracle Autonomous Database和Oracle Autonomous Data Warehouse在內(nèi)的OCI構(gòu)建、訓(xùn)練和管理機(jī)器學(xué)習(xí)模型。該平臺包含有由開放源碼社區(qū)和Oracle Accelerated Data Science (ADS) Library開發(fā)的以Python為中心的工具、庫和套件,支持預(yù)測模型端到端的生命周期:

  • 數(shù)據(jù)采集、分析、準(zhǔn)備和可視化
  • 特征工程
  • 模型訓(xùn)練(包括Oracle AutoML)
  • 模型評估、解釋和說明(包括Oracle MLX)
  • Oracle Functions中的模型部署

OCI Data Science還與包括Functions、Data Flow、Autonomous Data Warehouse和對象存儲等OCI堆棧進(jìn)行了整合。

目前支持的模型包括:

  • Oracle AutoML
  • Keras
  • Scikit-learn機(jī)器學(xué)習(xí)庫
  • XGBoost
  • ADSTuner (超參數(shù)優(yōu)化)

此外,ADS還支持MLX(機(jī)器學(xué)習(xí)可解釋性)。

總結(jié):甲骨文云基礎(chǔ)設(shè)施(OCI)可以托管與其數(shù)據(jù)倉庫、對象存儲和函數(shù)集成的數(shù)據(jù)科學(xué)資源,從而實(shí)現(xiàn)完整的模型開發(fā)生命周期。

Vertica

Vertica分析平臺為可擴(kuò)展的列式存儲數(shù)據(jù)倉庫,其有兩種運(yùn)行模式:Enterprise和EON,前一種模式將數(shù)據(jù)存儲在本地組成數(shù)據(jù)庫的節(jié)點(diǎn)內(nèi)的文件系統(tǒng)中,后一種模式將數(shù)據(jù)存儲在公共的計算節(jié)點(diǎn)上。

Vertica使用大規(guī)模并行運(yùn)算處理PB級數(shù)據(jù),并通過數(shù)據(jù)并行進(jìn)行內(nèi)部機(jī)器學(xué)習(xí)。該產(chǎn)品有8個用于數(shù)據(jù)準(zhǔn)備的內(nèi)置算法、3個回歸算法、4個分類算法、2個聚類算法以及多個模型管理函數(shù),并具備將已訓(xùn)練的TensorFlow和PMML模型導(dǎo)入至其他地方的功能。在導(dǎo)入了模型之后,用戶就可以使用它們進(jìn)行預(yù)測。Vertica 還允許用戶使用由C++、Java、Python或R等語言編譯的自定義擴(kuò)展程序。此外,用戶還可以使用SQL語法進(jìn)行訓(xùn)練和推理。

總結(jié):Vertica內(nèi)置了一套優(yōu)秀的機(jī)器學(xué)習(xí)算法,并且可以導(dǎo)入TensorFlow和PMML模型。用戶既可以使用導(dǎo)入的模型進(jìn)行預(yù)測,也可以使用自己訓(xùn)練的模型進(jìn)行預(yù)測。

其它選擇:MindsDB

如果用戶的數(shù)據(jù)庫不支持內(nèi)置機(jī)器學(xué)習(xí),那么他們可以使用MindsDB。該款產(chǎn)品集成了6個數(shù)據(jù)庫和5個商業(yè)智能工具,支持的數(shù)據(jù)庫包括MariaDB、MySQL、PostgreSQL、ClickHouse、微軟SQL Server和Snowflake。目前MindsDB還正在努力與MongoDB整合,2021年晚些時候還將會與流數(shù)據(jù)庫實(shí)現(xiàn)集成。MindsDB支持的商業(yè)智能工具包括SAS、Qlik Sense、微軟Power BI、Looker和Domo。

MindsDB的功能還包括AutoML、AI表和可解釋的人工智能(XAI)。用戶可以從MindsDB Studio、SQL INSERT語句或Python API調(diào)用中調(diào)用AutoML訓(xùn)練。用戶可以選擇使用GPU進(jìn)行訓(xùn)練,也可以選擇創(chuàng)建時間序列模型。

用戶可以將模型另存為數(shù)據(jù)庫表,然后從已保存模型專用的SQL SELECT語句、MindsDB Studio或Python API調(diào)用中調(diào)用它們。此外,用戶還可以通過MindsDB Studio對模型質(zhì)量實(shí)現(xiàn)評估、解釋和可視化。

與此同時,用戶還可以將MindsDB Studio和 Python API 與本地和遠(yuǎn)程數(shù)據(jù)源聯(lián)接在一起。MindsDB還額外提供了一個可在PyTorch上運(yùn)行的簡化版深度學(xué)習(xí)框架Lightwood。

總結(jié):MindsDB為許多不支持內(nèi)置機(jī)器學(xué)習(xí)的數(shù)據(jù)庫帶來了機(jī)器學(xué)習(xí)功能。

越來越多的數(shù)據(jù)庫開始在內(nèi)部支持機(jī)器學(xué)習(xí)。雖然機(jī)制各不相同,但是有些機(jī)制確實(shí)性能更加出眾。如果擁有大量數(shù)據(jù),且需要為采樣子集選擇適當(dāng)?shù)哪P停敲瓷厦嫠械?個數(shù)據(jù)庫,以及支持MindsDB的其他數(shù)據(jù)庫都可以幫助用戶為完整的數(shù)據(jù)集構(gòu)建模型,并且不需要擔(dān)心因數(shù)據(jù)導(dǎo)出導(dǎo)致費(fèi)用嚴(yán)重超支。 

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2023-02-10 14:49:32

人工智能機(jī)器學(xué)習(xí)

2009-07-07 17:27:37

JDBC連接Oracl

2023-11-28 12:12:46

機(jī)器學(xué)習(xí)算法

2021-11-29 18:33:38

數(shù)據(jù)分析模型

2011-04-14 18:03:49

2009-09-15 15:51:52

2017-09-29 08:56:13

2023-01-05 08:42:47

數(shù)據(jù)庫優(yōu)化方案

2023-11-15 15:45:22

2023-10-17 15:29:44

2022-04-11 13:34:07

區(qū)塊鏈比特幣安全

2013-08-27 17:55:23

2009-06-22 14:07:46

JSF優(yōu)勢

2016-01-27 13:37:53

機(jī)器學(xué)習(xí)數(shù)據(jù)模型算法

2011-04-29 09:15:16

Servlet

2024-04-24 09:52:19

云技能云遷移云計算

2010-07-08 15:18:13

UML類圖符號

2025-03-05 08:30:00

2024-12-31 06:00:00

Python編程代碼

2010-03-30 16:58:55

云計算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产高清视频 | a久久 | 免费观看av网站 | 九色 在线 | 欧美色综合一区二区三区 | 国产一区二区在线免费观看 | 欧美色综合 | 自拍偷拍中文字幕 | 福利网址 | 国产乱码高清区二区三区在线 | 欧美一区二区免费电影 | 国产精品久久久久久久久久99 | 黄色操视频 | 日日想夜夜操 | 色网站在线免费观看 | 国产人久久人人人人爽 | 久久久免费毛片 | 国产精品久久毛片av大全日韩 | 国产精品成av人在线视午夜片 | 中文区中文字幕免费看 | 午夜精品一区二区三区在线播放 | 国产精品免费一区二区三区四区 | a国产视频| 国产黄色电影 | 中文字幕在线视频观看 | 中文字幕日韩欧美 | 精品久久久久久久 | 久久国内精品 | 日韩欧美网 | 欧美男人天堂 | 国产精品国产三级国产aⅴ中文 | 二区在线观看 | 亚洲国产高清在线 | 国产成人精品一区二区三区四区 | 黄色片在线 | 一区二区三区免费在线观看 | 超级乱淫av片免费播放 | 久久日韩精品 | 免费观看一级毛片视频 | 国产精品不卡 | 日本五月婷婷 |