成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2021年值得考慮的15種數據科學工具

人工智能 機器學習
下面是15種頂級數據科學工具,這些工具可能會在分析過程中為你提供幫助,這些工具按字母順序排列,我們會詳細說明它們的功能和特點-以及潛在的局限性。

企業數據的數量和復雜性正不斷增加,同時,數據在企業決策和戰略規劃中發揮核心作用,這推動著企業投資于人員、流程和技術,以幫助他們了解其數據資產并從中獲得見解。這包括數據科學應用程序中常用的各種工具。

[[395783]]

市場研究公司IDC估計,在2020年,超過64 ZB的數據(相當于640億TB)被創建、捕獲、復制和使用,這是由于受疫情影響,更多的遠程工作和在線流媒體加速數據使用。但是,數據分析舉措也發揮重要作用。在2020年5月IDC公司最初預測59 ZB時,該公司Global DataSphere預測高級副總裁David Reinsel說,持續的數據增長“更多地是由我們所使用和分析的數據推動,而不是我們創建的數據。”

當建立支持技術的產品組合時,數據科學團隊可以從多種工具和平臺中進行選擇。下面是15種頂級數據科學工具,這些工具可能會在分析過程中為你提供幫助,這些工具按字母順序排列,我們會詳細說明它們的功能和特點-以及潛在的局限性。

1. Apache Spark

Apache Spark是開源數據處理和分析引擎,可以處理大量數據-超過幾PB。自2009年創建以來,Spark迅速處理數據的能力推動該平臺的快速發展,從而使Spark項目成為大數據技術中最大的開源社區之一。

由于速度快,Spark非常適合連續智能應用程序–以近實時處理流數據為動力。但是,作為通用分布式處理引擎,Spark同樣適用于提取、轉換和加載用途以及其他SQL批處理作業。實際上,Spark最初被吹捧為MapReduce引擎的更快替代品,用于Hadoop集群中批處理。

Spark仍經常與Hadoop一起使用,但也可以獨立運行,用于其他文件系統和數據存儲。它具有廣泛的開發人員庫和API,包括機器學習庫和對關鍵編程語言的支持,使數據科學家可以更輕松地將該平臺快速投入使用。

2. D3.js

D3.js是另一個開源工具,它是一個JavaScript庫,用于在Web瀏覽器中創建自定義數據可視化。通常稱為D3,這代表Data-Driven Documents(數據驅動文檔),它使用Web標準(例如HTML、可縮放矢量圖形和CSS),而不是自己的圖形詞匯。D3的開發人員將其描述為一種動態且靈活的工具,只需最少的工作即可生成數據的可視化表示。

D3.js使可視化設計人員可以通過Document Object Model將數據綁定到文檔,然后使用DOM操作方法對文檔進行數據驅動的轉換。它于2011年首次發布,可用于設計各種類型的數據可視化,并支持交互、動畫、注釋和定量分析等功能。

但是,D3包含30多個模塊和1,000種可視化方法,使學習變得復雜。此外,很多數據科學家沒有JavaScript技能。因此,他們可能更喜歡Tableau等商業可視化工具,這使得D3的主要用戶是數據可視化開發人員和專家(也屬于數據科學團隊的成員)。

3. IBM SPSS

IBM SPSS是用于管理和分析復雜統計數據的軟件系列。它包括兩個主要產品:SPSS Statistics–統計分析、數據可視化和報告工具,以及SPSS Modeler–具有拖放式UI和機器學習功能的數據科學和預測分析平臺。

SPSS Statistics涵蓋分析過程的每個步驟,從計劃到模型部署,并使用戶能夠闡明變量之間的關系、創建數據點集群、識別趨勢并進行預測以及其他功能。它可以訪問常見的結構化數據類型,并提供菜單驅動的UI,其自身的命令語法以及可集成R和Python擴展,還有用于自動化流程和導入/導出關系到SPSS Modeler的功能。

該軟件由SPSS Inc.于1968年創建,最初的名稱是Social Sciences for Social Sciences,該統計分析軟件于2009年被IBM收購,以及SPSS先前收購的預測建模平臺。雖然該產品系列正式稱為IBM SPSS,但該軟件通常仍簡稱為SPSS。

4. Julia

Julia是一種開源的編程語言,用于數值計算,以及機器學習和其他類型的數據科學應用程序。在2012年發布Julia的博客文章中,它的四位創建者表示他們在設計一種能夠滿足其所有需求的語言。這里的重要的目標是,避免用一種語言編寫程序,然后要將其轉換為另一種語言來執行。

為此,Julia結合高級動態語言的便利性以及可與靜態類型語言(例如C和Java)媲美的性能。用戶不必在程序中定義數據類型,盡管他們可以選擇這樣做。在運行時使用多調度方法也有助于提高執行速度。

Julia 1.0于2018年投入使用,這距離該語言的發布已經過去九年。最新版本是1.6,于2021年3月發布。Julia的文檔指出,由于其編譯器不同于數據科學語言(例如Python和R)中的解釋器,因此新用戶“一開始可能會發現Julia的性能不直觀”。但是,它聲稱:“一旦你了解Julia的工作原理,你會發現很容易編寫代碼,就像C語言那樣快。”

5. Jupyter Notebook

數學家、研究人員和其他用戶之間的交互式協作。它是一種計算筆記本工具,可用于創建、編輯和共享代碼以及說明性文本、圖像和其他信息。例如,Jupyter用戶可以將軟件代碼、計算、注釋、數據可視化以及計算結果的富媒體表示形式添加到單個文檔(被稱為notebook)中,然后可以與同事共享并進行修改。

因此,根據Jupyter Notebook的文檔介紹,notebook“可以充當數據科學團隊成員之間互動會話的完整計算記錄”。notebook文檔是具有版本控制功能的JSON文件。此外,Notebook Viewer服務使它們可以呈現為靜態網頁,以供未在系統上安裝Jupyter的用戶查看。

Jupyter Notebook的起源是Python編程語言-它最初是IPython交互式工具包開源項目的一部分,然后在2014年被拆分。除支持這三種語言外,Jupyter還為其他數十種語言提供模塊化內核。

6. Keras

Keras是編程接口,使數據科學家可以更輕松地訪問和使用TensorFlow機器學習平臺。這是用Python編寫的開源深度學習API和框架,可在TensorFlow上運行,現已集成到該平臺中。Keras之前支持多個后端,但從2020年6月的2.4.0版本開始,它僅與TensorFlow綁定。

作為高級API,Keras被設計為驅動簡單快速的實驗,與其他深度學習選項相比,其所需的編碼更少。正如Keras文檔所說,其目標是通過具有“高迭代速度”的開發過程來加速機器學習模型(特別是深度學習神經網絡)的部署。

Keras框架包括序列接口,用于創建帶有輸入和輸出的相對簡單的線性層堆棧,以及功能性API–用于構建更復雜的層圖或從頭開始編寫深度學習模型。Keras模型可以在CPU或GPU上運行,并可以跨多個平臺進行部署,包括Web瀏覽器以及Android和iOS移動設備。

7. Matlab

自1984年以來,Matlab由軟件供應商MathWorks開發和銷售,它是高級編程語言和分析環境,用于數字計算、數學建模和數據可視化。傳統工程師和科學家通常用它來分析數據、設計算法并開發嵌入式系統–用于無線通信、工業控制、信號處理和其他應用,通常與Simulink工具配合使用,該工具提供基于模型的設計和仿真功能。

盡管Matlab在數據科學應用程序中沒有像Python、R和Julia等語言廣泛使用,但它確實支持機器學習和深度學習、預測建模、大數據分析、計算機視覺以及數據科學家所做的其他工作。該平臺內置的數據類型和高級功能旨在加快分析應用程序中的探索性數據分析和數據準備。

Matlab被認為相對容易學習和使用,它的全稱是matrix laboratory(矩陣實驗室),它既包含預構建的應用程序,又使用戶能夠構建自己的應用程序。它還具有附加工具箱庫(包含特定學科軟件),以及數百種內置功能,其中包括以2D和3D圖形形式可視化數據的功能。

8. Matplotlib

Matplotlib是開放源Python繪圖庫,用于在分析應用程序中讀取、輸入和可視化數據。數據科學家和其他用戶可以使用Matplotlib創建靜態、動畫和交互式數據可視化,在Python腳本、Python和IPython Shell、Jupyter Notebook、Web應用程序服務器和各種GUI工具包中使用它。

該庫的大型代碼庫可能難以掌握,但是它是以層級結構構建,旨在使用戶能夠構建可視化文件–主要使用高級命令。該層級結構中最重要的組件是pyplot,這是提供“狀態機環境”的模塊,并且提供一組簡單繪圖功能,類似于Matlab中的功能。

Matplotlib于2003年首次發布,它還包含面向對象的接口,可以與pyplot一起使用或單獨使用。它支持低級命令,用于更復雜數據繪制。該庫主要專注于創建2D可視化,但提供具有3D繪圖功能的附加工具包。

9. Python

Python是數據科學和機器學習領域最廣泛使用的編程語言,并且是最受歡迎的語言之一。 Python開源項目的網站將其描述為“一種具有動態語義的解釋性、面向對象的高級編程語言”,以及內置數據結構以及動態類型和綁定功能。該網站還吹捧Python的簡單語法,稱它易于學習,并且它對可讀性的強調可降低程序維護的成本。

多功能語言可用于多種任務,包括數據分析、數據可視化、AI、自然語言處理和機器人過程自動化。開發人員也可以使用Python創建Web、移動和桌面應用程序。除面向對象的編程外,它還支持流程、函數和其他類型,以及用C或C ++編寫的擴展。

不僅數據科學家,程序員和網絡工程師使用Python,而且計算專業人士(從會計師到數學家和科學家)也在使用Python,他們常常被它的用戶友好特性所吸引。Python 2.x和3.x都是該語言的生產就緒版本,盡管對2.x系列的支持已于2020年終止。

10. PyTorch

PyTorch是開源框架,用于構建和訓練基于神經網絡的深度學習模型,PyTorch的擁護者稱其支持快速靈活的實驗以及向生產部署的無縫過渡。Python庫被設計為比Torch更易于使用,Torch是基于Lua編程語言的前身機器學習框架。根據其創建者的說法,PyTorch還提供比Torch更高的靈活性和速度。

PyTorch于2017年首次公開發布,它使用類似數組的張量對模型的輸入、輸出和參數進行編碼。它的張量類似于NumPy支持的多維數組,這是另一個用于科學計算的Python庫,但是PyTorch添加內置支持以在GPU上運行模型。NumPy數組可轉換為張量以在PyTorch中進行處理,反之亦然。

該庫包含各種功能和技術,其中包括稱為torch.autograd的自動差異包和用于構建神經網絡的模塊,以及用于部署PyTorch模型的TorchServe工具,還有對iOS和Android設備的部署支持。除主要的Python API外,PyTorch還提供一種C ++,可用作單獨的前端接口或創建對Python應用程序的擴展。

11. R

R編程語言是開源代碼環境,旨在用于統計計算和圖形應用程序,以及數據處理、分析和可視化。很多數據科學家、學術研究人員和統計學家都使用R來檢索、清理、分析和呈現數據,使其成為數據科學和高級分析中最受歡迎的語言之一。

該開源項目得到R基金會的支持,并且提供數以千計的用戶創建的程序包,這些程序包具有代碼庫可增強R功能-例如,ggplot2,這是用于創建圖形的知名程序包,它是基于R的數據科學工具tidyverse的一部分。此外,多家供應商為R提供集成開發環境和商業代碼庫。

R是一種解釋型語言,類似于Python,并且以相對直觀而著稱。它是在1990年代創建,它是S的替代版本,S是1970年代開發的一種統計編程語言;R是其兩個創作者名字的首字母。

12. SAS

SAS是用于統計分析、高級分析、BI和數據管理的集成軟件套件。該平臺由軟件供應商SAS Institute Inc.開發和銷售,它使用戶可以集成、清理、準備和處理數據,然后可以使用不同的統計和數據科學技術對數據進行分析。SAS可用于各種任務,從基本的BI和數據可視化到風險管理、運營分析、數據挖掘、預測分析和機器學習。

在1966年北卡羅來納州立大學開始開發SAS。1970年代初期,人們對該技術的使用開始增加,并且SAS Institute于1976年成立,作為一家獨立公司。該軟件最初是供統計人員使用-SAS全稱是Statistics Analysis System(統計分析系統)。但是,隨著時間的流逝,它被擴展到包括廣泛的功能,并成為商業企業和學術界中使用最廣泛的分析套件之一。

現在開發和營銷工作主要集中在SAS Viya,SAS Viya是該平臺的基于云的版本,于2016年啟動,并在2020年進行重新設計成為云原生。

13. scikit-learn

Scikit-learn是針對Python的開源機器學習庫,它基于SciPy和NumPy科學計算庫以及Matplotlib來繪制數據。它支持有監督的和無監督的機器學習,并包括很多算法和模型,在scikit-learn術語中稱為估計器。此外,它提供功能用于模型擬合、選擇和評估以及數據預處理和轉換。

該庫最初被稱為scikits.learn,在2007年作為Google Summer of Code項目開始,并于2010年首次公開發布。其名稱的第一部分是SciPy工具箱的縮寫,它也被其他SciPy附加組件使用。Scikit-learn主要適用于存儲在NumPy數組或SciPy稀疏矩陣中的數字數據。

該庫的工具套件還支持其他各種任務,例如數據集加載和工作流管道創建–結合數據轉換器對象和估計器。但是由于設計限制,scikit-learn也有限制。例如,它不支持深度學習、強化學習或GPU,并且該庫的網站稱其開發人員“僅考慮完善的算法用于包含”。

14. TensorFlow

TensorFlow是由谷歌開發的開源機器學習平臺,人們特別喜歡用它來部署深度學習神經網絡方面。該平臺采用張量形式的輸入,類似于NumPy多維數組,然后使用圖結構將數據執行開發人員指定的一系列計算操作。它還提供急切執行(eager execution)編程環境,該環境獨立運行操作,而無需使用圖形,這為研究和調試機器學習模型提供更大的靈活性。

谷歌在2015年將TensorFlow開源,并在2017年發布1.0.0版。TensorFlow使用Python作為其核心編程語言,現在還結合Keras高級API來構建和訓練模型。另外,TensorFlow.js庫支持使用JavaScript開發模型,并且可以使用C ++構建自定義操作(簡稱為ops)。

該平臺還包括TensorFlow擴展模塊,用于端到端部署生產機器學習管道,以及用于移動和物聯網設備的TensorFlow Lite。TensorFlow模型可以在CPU、GPU和谷歌專用Tensor處理單元進行訓練和運行。

15. Weka

Weka是開源工作臺,它提供一組機器學習算法,可用于數據挖掘任務。Weka的算法被稱為分類器,該算法可以直接應用到數據集,而無需通過GUI或命令行界面進行任何編程以提供附加功能;它們也可以通過Java API部署。

該工作臺可用于分類、聚類、回歸和關聯規則挖掘應用程序,并且還包括一組數據預處理和可視化工具。此外,Weka支持與R、Python、Spark和其他庫(例如scikit-learn)的集成。對于深度學習用途,附加軟件包可將其與Eclipse Deeplearning4j庫相結合。

Weka是GNU通用公共許可證許可的免費軟件。1992年在新西蘭Waikato大學開發出該軟件;最初的版本用Java進行重寫,以創建當前的工作臺,該工作臺于1999年首次發布。Weka全稱是Waikato Environment for Knowledge Analysis,它也是新西蘭本土一種不會飛的鳥的名稱,該技術的開發人員稱這種鳥具有“好奇的天性”。

數據科學和機器學習平臺

很多軟件供應商也提供商業許可平臺,這些平臺可集成功能用于機器學習、AI和其他數據科學應用程序。這些產品種類繁多-它們包括機器學習操作中心、自動化機器學習平臺和全功能分析套件,其中有些產品會結合這些功能。很多平臺都包含上面列出的數據科學工具。

Matlab和SAS也可以算作數據科學平臺。數據科學團隊可以考慮的的其他重要平臺選項包括:

  • Alteryx Analytic Process Automation Platform
  • Amazon SageMaker
  • Azure Machine Learning
  • Databricks Lakehouse Platform
  • Dataiku
  • DataRobot
  • Domino Data Science Platform
  • Google Cloud AI Platform
  • H2O AI Hybrid Cloud
  • IBM Watson Studio
  • Knime
  • RapidMiner
  • Tibco Data Science

有些平臺還提供免費的開源或社區版本-例如Dataiku和H2O。Knime結合開源分析平臺與商業Knime Server軟件包,該軟件包支持基于團隊的協作以及工作流自動化、部署和管理。

 

責任編輯:趙寧寧 來源: TechTarget中國
相關推薦

2018-11-01 08:49:28

數據科學數據科學工具數據分析

2021-02-19 22:35:29

DevOps開發軟件開發

2021-01-07 17:11:16

數據科學數據分析IT

2021-01-20 09:00:00

開發軟件測試工具

2021-04-19 11:39:04

編程語言PythonJava

2021-03-01 12:20:32

編程語言LinuxPython

2021-03-01 09:32:54

編程語言開發

2019-01-10 10:20:00

消息推送平臺APP后端

2021-02-26 20:11:54

邊緣計算云計算安全

2021-04-21 10:40:43

物聯網威脅物聯網安全網絡攻擊

2024-09-25 14:39:35

2021-08-02 09:00:00

DevOps工具開發

2017-12-30 10:15:15

機器學習工具框架

2020-12-22 09:00:00

自動化IT工具

2021-01-28 06:10:00

數據可視化工具大數據

2022-08-31 14:06:02

RPA工具人工智能

2021-02-22 10:49:45

大數據數據湖數據倉庫

2021-02-17 23:45:06

大數據工具架構

2021-06-21 06:16:50

React React PDF 庫前端

2020-12-08 09:00:00

網絡安全工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲综合中文字幕在线观看 | 久久高清免费视频 | 日韩精品一区二区三区在线观看 | 国产精品成人一区二区三区夜夜夜 | 欧美大片一区 | 免费看一级毛片 | 中文字幕 国产精品 | 三级黄色大片网站 | 国产激情精品视频 | 免费电影av | 欧美精品中文字幕久久二区 | 99热视| 欧美一级片在线看 | av黄色网 | 国产成人精品久久 | 一区二区三区视频 | 免费黄色a级毛片 | 日韩福利| 久久天天综合 | 国产成人精品一区二区三区在线 | 国产精品久久久久久久久久 | 日韩中文字幕av | 91在线区 | 亚洲第一成人影院 | 亚洲一区二区欧美 | 怡红院免费的全部视频 | 日韩在线观看 | 精品一区国产 | 综合婷婷| 中文字幕 亚洲一区 | 一区二区三区在线 | 欧 | 国产福利精品一区 | 一区中文字幕 | 九九精品在线 | 久亚州在线播放 | 伊人超碰在线 | 日本久久久一区二区三区 | 一级黄色日本片 | 精品无码三级在线观看视频 | 国产视频一区二区三区四区五区 | 色精品视频 |