成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

工欲善其事必先利其器(大數(shù)據(jù)分析工具集)

大數(shù)據(jù) 數(shù)據(jù)分析
大數(shù)據(jù)時(shí)代需要大數(shù)據(jù)挖掘,我習(xí)慣把大數(shù)據(jù)分成四個(gè)領(lǐng)域:數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)、空間地理科學(xué)和可視化技術(shù)。

大數(shù)據(jù)時(shí)代需要大數(shù)據(jù)挖掘,我習(xí)慣把大數(shù)據(jù)分成四個(gè)領(lǐng)域:數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)、空間地理科學(xué)和可視化技術(shù);

工欲善其事必先利其器(大數(shù)據(jù)分析工具集)

最近的主要興趣在空間地理領(lǐng)域,學(xué)習(xí)如何獲取POI,Polygon,經(jīng)緯度,空間匹配算法和可視化,一個(gè)全新領(lǐng)域有帶來諸多大數(shù)據(jù)分析工具的思考和整合。

恰巧看到一篇國外博客列舉了大數(shù)據(jù)領(lǐng)域的分析工具,俺的微信公號(hào)也曾經(jīng)寫過兩篇:

數(shù)據(jù)工匠 | 工欲善其事必先利其器(數(shù)據(jù)分析工具集一)

數(shù)據(jù)工匠 | 工欲善其事必先利其器(數(shù)據(jù)分析工具集二)

今天就接著把數(shù)據(jù)分析主要是大數(shù)據(jù)挖掘的工具集三寫下來:

順勢(shì)俺在總結(jié)一下:

我了解和喜歡的大數(shù)據(jù)挖掘工具主要分成:提取,存儲(chǔ),清洗,挖掘,可視化,分析和集成語言領(lǐng)域。

[[182736]]

數(shù)據(jù)存儲(chǔ)和管理

如果你要使用大數(shù)據(jù),你需要考慮如何存儲(chǔ)它。大數(shù)據(jù)個(gè)人一般玩起來常常是幾百兆、或G;當(dāng)然企業(yè)級(jí)就可能不是這個(gè)側(cè)面了,T或P級(jí),一個(gè)好的數(shù)據(jù)存儲(chǔ)提供商應(yīng)該為您提供一個(gè)基礎(chǔ)架構(gòu),在其上運(yùn)行所有其他分析工具以及存儲(chǔ)和查詢數(shù)據(jù)的地方。

Hadoop

Hadoop已經(jīng)成為大數(shù)據(jù)的代名詞。它是一個(gè)用于在計(jì)算機(jī)集群上分布式存儲(chǔ)大型數(shù)據(jù)集的開源軟件框架。這意味著可以上下擴(kuò)展數(shù)據(jù),而無需擔(dān)心硬件問題。Hadoop為任何類型的數(shù)據(jù)提供大量的存儲(chǔ),巨大的數(shù)據(jù)處理能力和處理虛擬***并發(fā)任務(wù)或作業(yè)的能力。Hadoop不適合數(shù)據(jù)初學(xué)者。要真正利用它,真的需要知道Java編程。

Cloudera

Cloudera本質(zhì)上是一個(gè)Hadoop的品牌名稱。它們可以幫助企業(yè)構(gòu)建企業(yè)數(shù)據(jù)中心,以便您組織中的人員更好地訪問您存儲(chǔ)的數(shù)據(jù)。

雖然它是開源,Cloudera主要還是企業(yè)解決方案,幫助企業(yè)管理他們的Hadoop生態(tài)系統(tǒng)。基本上,利用它管理Hadoop很多艱苦的工作。還可提供一定量的數(shù)據(jù)安全性,如果您存儲(chǔ)任何敏感或個(gè)人數(shù)據(jù),這是非常重要的。

MongoDB

MongoDB的是現(xiàn)代,流行的非結(jié)構(gòu)化數(shù)據(jù)庫,但又可視為關(guān)系數(shù)據(jù)庫的替代品。它適用于管理經(jīng)常更改的數(shù)據(jù)或非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。

常見應(yīng)用包括存儲(chǔ)移動(dòng)應(yīng)用程序的數(shù)據(jù),產(chǎn)品目錄,實(shí)時(shí)個(gè)性化,內(nèi)容管理和跨多個(gè)系統(tǒng)提供單個(gè)視圖的應(yīng)用程序。MongoDB也不適合數(shù)據(jù)新手,與任何數(shù)據(jù)庫一樣,您需要知道如何使用編程語言進(jìn)行查詢。

Talend

Talend是另一個(gè)偉大的開源數(shù)據(jù)庫,提供了大量的數(shù)據(jù)產(chǎn)品。這里我們專注于他們的主數(shù)據(jù)管理(MDM-元數(shù)據(jù)管理)產(chǎn)品,它將實(shí)時(shí)數(shù)據(jù),應(yīng)用程序和過程集成與嵌入式數(shù)據(jù)質(zhì)量和管理相結(jié)合。

它是開源的,Talend是完全免費(fèi)的,Talend都是一個(gè)很好的選擇。它可以節(jié)省您構(gòu)建和維護(hù)自己的數(shù)據(jù)管理系統(tǒng) ——這是一個(gè)非常復(fù)雜和困難的任務(wù)。

從頭開始

[[182737]]

如果你是大數(shù)據(jù)的新手,數(shù)據(jù)庫可能不是***的開始。它們相對(duì)復(fù)雜,并且需要一定量的編碼知識(shí)來操作(與下面提到的許多其他工具不同)。

然而,如果你真的想在大數(shù)據(jù)中工作,那么知道數(shù)據(jù)庫的基礎(chǔ)知識(shí)并且能夠智能地談?wù)撍鼈兪潜仨毜?。我們需要全面了解大?shù)據(jù)的技術(shù),包括數(shù)據(jù)庫和存儲(chǔ)的歷史,關(guān)系數(shù)據(jù)庫和文檔數(shù)據(jù)庫之間的差異,大數(shù)據(jù)的挑戰(zhàn)和必要的工具,以及Hadoop的介紹。

不過從個(gè)人玩大數(shù)據(jù)的角度,我個(gè)人推薦:PostgreSQL、MySQL、以及JSON、GeoJSON等數(shù)據(jù)存儲(chǔ)形式,當(dāng)然個(gè)人主要是CSV格式的數(shù)據(jù)包或數(shù)據(jù)集。

特別強(qiáng)調(diào),對(duì)于數(shù)據(jù)庫來講重要的是需要掌握SQL查詢語言

數(shù)據(jù)清洗

[[182738]]

在您可以真正挖掘所謂大數(shù)據(jù)并能獲取洞察信息建模之前,您需要清理它。擁有或創(chuàng)造一個(gè)干凈,結(jié)構(gòu)良好的數(shù)據(jù)集有時(shí)是不可能的。數(shù)據(jù)集可以有各種形狀和大小的(有些好,有些不太好!),特別是當(dāng)你從網(wǎng)絡(luò)上獲得它。下面的數(shù)據(jù)清洗軟件工具將幫助您細(xì)化數(shù)據(jù)并將其重塑為可用的數(shù)據(jù)集。(部分工具都有特征工程的技術(shù))

OpenRefine

OpenRefine(原GoogleRefine)是一個(gè)開源工具,專門用于清理雜亂的數(shù)據(jù)。我們可以輕松,快速地探索巨大的數(shù)據(jù)集,即使數(shù)據(jù)有點(diǎn)非結(jié)構(gòu)化。

就數(shù)據(jù)軟件而言,OpenRefine是非常用戶友好的。雖然,良好的數(shù)據(jù)清洗的原則和基礎(chǔ)知識(shí)肯定有幫助。OpenRefine的好處是它有一個(gè)巨大的社區(qū),有很多貢獻(xiàn)者意味著軟件不斷變得越來越好。你可以問(非常有幫助和患者)社區(qū)的問題,如果你陷入困境。你可以看看他們的Github上庫在這里你還可以找到OpenRefine維基。

DataCleaner

數(shù)據(jù)處理是一項(xiàng)長(zhǎng)期而艱苦的任務(wù)。數(shù)據(jù)可視化工具只能讀取結(jié)構(gòu)良好,“干凈”的數(shù)據(jù)集。DataCleaner為我們做艱苦的工作,并將凌亂的半結(jié)構(gòu)化數(shù)據(jù)集轉(zhuǎn)換為所有可視化軟件可以讀取的干凈可讀的數(shù)據(jù)集。

DataCleaner還提供數(shù)據(jù)倉庫和數(shù)據(jù)管理服務(wù)。該公司提供30天免費(fèi)試用,然后是每月訂閱費(fèi)。

說明:我主要用于清洗的工具是refine

[[182739]]

數(shù)據(jù)挖掘

這里不要與數(shù)據(jù)提取(后面討論)混淆,數(shù)據(jù)挖掘是在數(shù)據(jù)庫中發(fā)現(xiàn)洞察,而不是將數(shù)據(jù)從網(wǎng)頁提取到數(shù)據(jù)庫中的過程。數(shù)據(jù)挖掘的目的是對(duì)你手頭的數(shù)據(jù)進(jìn)行預(yù)測(cè)、建模和決策。

RapidMiner

RapidMiner是預(yù)測(cè)分析一個(gè)奇妙的工具。它是強(qiáng)大的,易于使用,并有一個(gè)開源社區(qū)背后。甚至可以通過其API將自己的專用算法集成到RapidMiner中。圖形界面,這意味著你不需要知道如何代碼。

IBM SPSS Modeler

在IBM SPSS Modeler中提供了一整套專用于數(shù)據(jù)挖掘解決方案套件。這包括文本分析,實(shí)體分析,決策管理和優(yōu)化。他們的五個(gè)產(chǎn)品提供了一系列先進(jìn)的算法和技術(shù),包括文本分析,實(shí)體分析,決策管理和優(yōu)化。

SPSS Modeler是一個(gè)重型解決方案,非常適合大公司的需求。它可以運(yùn)行在幾乎任何類型的數(shù)據(jù)庫,可以與其他IBM SPSS產(chǎn)品,如SPSS協(xié)作與部署服務(wù)和SPSS分析服務(wù)器集成。

KNIME

它也是一個(gè)開源的數(shù)據(jù)挖掘軟件,主要推薦理由:1-開源,2-擁有60多個(gè)案例,3-有社區(qū)和Labs,4-能夠集成R和Python等

商業(yè)上真正的數(shù)據(jù)挖掘工具都會(huì)融入Oracle、TeraData等數(shù)據(jù)庫產(chǎn)品中。

Kaggle

如果你被困在一個(gè)數(shù)據(jù)挖掘問題,或想嘗試解決世界上最棘手的問題,Kaggle是世界上***的數(shù)據(jù)科學(xué)社區(qū)。公司和研究人員發(fā)布他們的數(shù)據(jù)和統(tǒng)計(jì)人員和來自世界各地的數(shù)據(jù)挖掘者競(jìng)爭(zhēng)產(chǎn)生***的模型。

我主要用的挖掘軟件工具:Modeler和Knime

數(shù)據(jù)分析

[[182740]]

盡管數(shù)據(jù)挖掘是挖掘先前未知的知識(shí),是一種自下而上的發(fā)現(xiàn)知識(shí)的過程,也稱為KDD。數(shù)據(jù)分析往往是自上而下的基于理論假設(shè)下的探索過程和推斷未知。Google Analytics(分析)是關(guān)于提出具體問題并在數(shù)據(jù)中找到答案。可以問關(guān)于未來會(huì)發(fā)生什么的問題!

Qubole

Qubole簡(jiǎn)化,速度和規(guī)模與存儲(chǔ)在AWS上(亞馬遜云計(jì)算)、谷歌數(shù)據(jù)大數(shù)據(jù)分析工作云計(jì)算平臺(tái)。一旦IT策略到位,任何數(shù)量的數(shù)據(jù)分析人員都可以隨著Hive,Spark,BigQuery等眾多數(shù)據(jù)處理引擎的強(qiáng)大功能自由協(xié)作“點(diǎn)擊查詢”。

Qubole是一個(gè)企業(yè)級(jí)解決方案,它們提供了一個(gè)免費(fèi)試用。

BigML

BigML試圖簡(jiǎn)化機(jī)器學(xué)習(xí)。它們提供了一個(gè)強(qiáng)大的機(jī)器學(xué)習(xí)服務(wù),具有易于使用的界面,您可以導(dǎo)入數(shù)據(jù)并獲取預(yù)測(cè)。您甚至可以使用他們的模型進(jìn)行預(yù)測(cè)分析。

對(duì)模型的良好理解當(dāng)然有幫助,但不是必要的,如果你想從BigML中獲得分析,他們有一個(gè)免費(fèi)版本的工具,允許您創(chuàng)建不到16mb的任務(wù),以及有一個(gè)付費(fèi)計(jì)劃和虛擬私有云滿足企業(yè)級(jí)的要求。

Statwing

Statwing將數(shù)據(jù)分析提高到一個(gè)新的水平,提供從美麗的視覺效果到復(fù)雜的分析。它使用起來很簡(jiǎn)單,你可以在5分鐘內(nèi)開始使用Statwing。

雖然它不是免費(fèi)使用,定價(jià)計(jì)劃是相當(dāng)優(yōu)雅?;咎撞褪敲吭?0美元,您可以隨時(shí)取消。這允許您使用每個(gè)大小不超過50mb的***數(shù)據(jù)集。還有其他企業(yè)計(jì)劃,讓您能夠上傳更大的數(shù)據(jù)集。

數(shù)據(jù)可視化

[[182741]]

數(shù)據(jù)可視化公司將使您的數(shù)據(jù)變得生機(jī)勃勃。對(duì)于任何數(shù)據(jù)科學(xué)家面臨的挑戰(zhàn)的一部分是從傳送的數(shù)據(jù)的洞察到你的公司的其他部門。對(duì)于大多數(shù)人來說,MySQL數(shù)據(jù)庫和電子表格依然會(huì)用。但可視化是傳達(dá)復(fù)雜數(shù)據(jù)洞察的一種明亮而簡(jiǎn)單的方法。大部分可視化都不需要任何編碼!

Tableau

Tableau是一個(gè)主要專注于商業(yè)智能數(shù)據(jù)可視化工具。您可以創(chuàng)建地圖,條形圖,散點(diǎn)圖等等,而無需編程。他們最近發(fā)布了一個(gè)Web連接器,允許您連接到數(shù)據(jù)庫或API,從而使您能夠在可視化中獲取實(shí)時(shí)數(shù)據(jù)。

SILK

silk是一個(gè)簡(jiǎn)單得多的數(shù)據(jù)可視化和比的Tableau的分析工具。它允許您通過構(gòu)建交互式地圖和圖表,只需點(diǎn)擊幾下鼠標(biāo),帶來您的數(shù)據(jù)。Silk還允許您與任意數(shù)量的人員進(jìn)行可視化協(xié)作。

像很多這個(gè)名單上的可視化的公司,Silk不要求你是一個(gè)專家程序員。如果你是新的可視化數(shù)據(jù),這是開始,因?yàn)樗麄兊牡胤?**的功能試圖無需你做任何事情會(huì)自動(dòng)顯示數(shù)據(jù)。

CartoDB

CartoDB是一個(gè)地圖數(shù)據(jù)可視化工具,專門制作地圖。它們使任何人都可以輕松地可視化位置數(shù)據(jù),而無需任何編碼。CartoDB可以管理數(shù)據(jù)文件和類型無數(shù),他們甚至有樣本數(shù)據(jù)集,

如果你有位置數(shù)據(jù),CartoDB絕對(duì)值得一看。它可能不是最簡(jiǎn)單的系統(tǒng)使用,但一旦你得到它的懸念,它是令人難以置信的強(qiáng)大。

Chartio

Chartio可以讓你在瀏覽器中的數(shù)據(jù)源相結(jié)合,執(zhí)行查詢。您只需點(diǎn)擊幾下即可創(chuàng)建強(qiáng)大的儀表板。Chartio的視覺查詢語言允許任何人從任何地方獲取數(shù)據(jù),而不必知道SQL或其他復(fù)雜的模型語言。它們還允許您計(jì)劃PDF報(bào)告,以便您可以將PDF文件導(dǎo)出為儀表板并通過電子郵件發(fā)送給任何您想要的人。

Chartio的另一個(gè)很酷的事情是,它通常不需要數(shù)據(jù)倉庫。這意味著您將更快地啟動(dòng)和運(yùn)行,并且您的實(shí)施成本將更低,更可預(yù)測(cè)。

Plot.ly

如果你想建立一個(gè)圖和嵌入程序中Plot.ly是不錯(cuò)的選擇。您可以創(chuàng)造驚人的2D和3D圖表,所有不需要編程知識(shí)。

免費(fèi)版本允許您創(chuàng)建一個(gè)私人圖表和***公共圖表,或者您可以升級(jí)到企業(yè)包以制作***的私人和公共圖表,以及為您提供矢量導(dǎo)出和保存自定義主題的選項(xiàng)。

DataWrapper數(shù)據(jù)包

我們最終的可視化工具是Datawrapper。它是一個(gè)開源工具,在幾分鐘內(nèi)創(chuàng)建可嵌入的圖表。因?yàn)樗情_源的,它將不斷發(fā)展,因?yàn)槿魏稳硕伎梢载暙I(xiàn)。他們有一個(gè)真棒圖表庫,你可以檢查出的那種東西的人都與Datawrapper做。

它有一個(gè)免費(fèi)工具和一個(gè)付費(fèi)選項(xiàng),付費(fèi)選項(xiàng)是一個(gè)預(yù)先設(shè)置,自定義的Datawrapper包。

說明:俺提建議主要用百度的開源產(chǎn)品Echarts,部分考慮D3.js

數(shù)據(jù)集成

[[182742]]

數(shù)據(jù)集成平臺(tái)是每個(gè)程序之間的粘合劑。如果你想連接你使用Import.io與Twitter中提取的數(shù)據(jù),或者您希望在Facebook上分享你用的Tableau或絲綢自動(dòng)進(jìn)行可視化,下面是集成服務(wù)工具。

Blockspring

Blockspring是類似在熟悉的如Excel和谷歌sheet的方式。您只需撰寫Google Sheet公式,即可連接到整個(gè)主機(jī)的第三方程序。您可以從電子表格發(fā)布社交博客,查看您的關(guān)注者關(guān)注者,以及連接到AWS,Import.io和Tableau等等。

Blockspring可以免費(fèi)使用,但它們也有一個(gè)包,允許您創(chuàng)建和共享私有函數(shù),添加自定義標(biāo)簽,以方便搜索和發(fā)現(xiàn),并為您的整個(gè)組織一次性設(shè)置API令牌。

Pentaho

Pentaho提供大數(shù)據(jù)集成所需的零編碼。使用簡(jiǎn)單的拖放UI,您可以集成許多工具與最小的編碼。他們還提供嵌入式分析和業(yè)務(wù)分析服務(wù)。

Pentaho是一個(gè)企業(yè)解決方案。

數(shù)據(jù)語言

[[182743]]

雖然今天的挖掘工具變得越來越強(qiáng)大和更容易使用,有時(shí)學(xué)會(huì)編程還是必要的,特別是工程和產(chǎn)品層面。即使你不是一個(gè)程序員,理解這些語言如何工作的基礎(chǔ)知識(shí)將使你更好地了解這些工具有多少功能以及如何***地使用它們。

R語言

R是用于統(tǒng)計(jì)計(jì)算和圖形的語言。如果上面列出的數(shù)據(jù)挖掘和統(tǒng)計(jì)軟件不能做你想要的,學(xué)習(xí)R是好方式。事實(shí)上,如果你打算成為一個(gè)數(shù)據(jù)科學(xué)家,知道R是必須的。

它可以在Linux,Windows和MacOS上運(yùn)行,你可以下載開源R。有一個(gè)巨大的統(tǒng)計(jì)學(xué)家社區(qū),人氣很旺。

Python

另一種在數(shù)據(jù)社區(qū)越來越受歡迎的語言是Python。創(chuàng)建于20世紀(jì)80年代,從Monty Python的Flying Circus命名,它一直在世界排名前十的***的編程語言。如果數(shù)據(jù)收集工具無法獲取他們需要的數(shù)據(jù),許多記者使用Python編寫自定義的爬蟲。

人們喜歡它,因?yàn)榕c英語的相似之處。它使用諸如’if’和’in’這樣的詞語,你可以很容易地閱讀腳本。

說明:俺主要用Jupyter或Ipython Notebook

RegEx

RegEx或正則表達(dá)式是一組可以操作和更改數(shù)據(jù)的字符。它主要用于與字符串的模式匹配,或字符串匹配。

XPath

XPath是一種查詢語言,用于從XML文檔中選擇某些節(jié)點(diǎn)。而RegEx操縱和更改數(shù)據(jù)組成,XPath將提取準(zhǔn)備好RegEx的原始數(shù)據(jù)。

XPath最常用于數(shù)據(jù)提取。

說明:如果你需要編寫爬蟲或者抓取web網(wǎng)頁,都需要學(xué)習(xí)正則表達(dá)和xpath,同時(shí)學(xué)習(xí)json數(shù)據(jù)格式,還要有一定的API接口技術(shù)。

說明:最近年末各種活動(dòng)太多,沒時(shí)間寫,當(dāng)然主要是懶了,這篇文章不錯(cuò)學(xué)習(xí)后先google翻譯了一下,稍微整理了下,寫了幾天。

責(zé)任編輯:未麗燕 來源: 36大數(shù)據(jù)
相關(guān)推薦

2021-06-16 09:22:10

鴻蒙HarmonyOS應(yīng)用

2018-07-02 15:46:18

Python編輯器經(jīng)驗(yàn)

2010-02-24 10:39:48

2012-11-09 17:15:29

遨游瀏覽器

2018-12-11 14:25:19

JFrogKubernetesDevOps

2021-11-22 16:46:59

鴻蒙HarmonyOS應(yīng)用

2016-12-16 14:18:54

2014-04-30 13:50:00

VS2013VS2013技巧

2021-03-03 14:50:55

安全自動(dòng)化機(jī)器學(xué)習(xí)網(wǎng)絡(luò)安全

2020-07-17 08:20:27

數(shù)據(jù)庫開源技術(shù)

2021-05-06 15:15:13

Python工具代碼

2019-04-30 08:25:35

2019-10-12 14:47:58

Excel大數(shù)據(jù)數(shù)據(jù)庫

2020-07-08 14:10:30

開發(fā)技能工具

2018-08-15 15:34:02

Android開發(fā)工具程序員

2013-11-07 10:20:36

2021-01-04 07:57:07

C++工具代碼

2021-02-06 06:47:15

Pyecharts可視化工具開源

2013-12-06 11:00:16

Linux服務(wù)器Unix服務(wù)器內(nèi)存

2023-12-26 14:46:14

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲欧美一区二区三区国产精品 | 国产精品国产a级 | 成人日韩精品 | 91精品国产色综合久久不卡98口 | 国产成人免费视频网站视频社区 | 精品av天堂毛片久久久借种 | 毛片av免费看 | 久久久久久成人 | av一区二区在线观看 | 国产免费xxx| 亚洲高清av在线 | 人操人人干人 | 国产精品免费一区二区三区 | 久久久久久久一区 | 日本粉嫩一区二区三区视频 | 伦理二区| 日韩三区 | 欧美精品一区二区免费视频 | 久久久久国产一级毛片高清网站 | 国产精品美女视频 | 羞羞网站免费观看 | 一区二区三区四区在线 | 色综合天天天天做夜夜夜夜做 | 国产欧美久久精品 | 亚洲一区二区高清 | 中文字幕av第一页 | 狠狠干在线 | www.9191 | 国产成人免费视频 | 亚洲综合精品 | 欧美日日日日bbbbb视频 | 91中文视频 | 欧美激情一区二区 | 一区二区高清 | 久久久人成影片一区二区三区 | 在线播放亚洲 | 中文字幕日韩欧美一区二区三区 | 亚洲天堂中文字幕 | 日韩av在线不卡 | 精品中文字幕在线观看 | 中文字幕亚洲视频 |