開(kāi)源數(shù)據(jù)挖掘工具,有這6個(gè)就足夠
數(shù)據(jù)在當(dāng)今世界意味著金錢(qián),隨著向基于App的世界的過(guò)渡,數(shù)據(jù)呈指數(shù)增長(zhǎng)。今天給大家介紹6個(gè)開(kāi)源數(shù)據(jù)挖掘工具,有需要的朋友可以自取,有更好用的工具也歡迎交流。
1、DataMelt
DataMelt或DMelt是數(shù)據(jù)分析和數(shù)據(jù)可視化的開(kāi)源軟件,可用于數(shù)值計(jì)算、數(shù)學(xué)、統(tǒng)計(jì)、符號(hào)計(jì)算等。該平臺(tái)是Python、Ruby、Groovy等各種腳本語(yǔ)言的組合,還有其他Java軟件包。它能夠制作高質(zhì)量的矢量圖形圖像(SVG,EPS,PDF等),這些圖像可以包含在LaTeX和其他文本處理系統(tǒng)中。
2、scikit-learn
scikit-learn是Python庫(kù),用于數(shù)據(jù)分析和數(shù)據(jù)挖掘,它建立在Matplotlib、Numpy、SciPy的基礎(chǔ)上,提供了降維、交叉驗(yàn)證集成、參數(shù)調(diào)整的方法等。
3、Apache Mahout
Apache Mahout是分布式線性代數(shù)框架,它能夠讓使用者以更快的方式實(shí)現(xiàn)其算法,構(gòu)建了一個(gè)可快速創(chuàng)建、可擴(kuò)展、性能驅(qū)動(dòng)的機(jī)器學(xué)習(xí)應(yīng)用程序的環(huán)境。它的具體優(yōu)勢(shì)有:允許應(yīng)用程序迅速分析大型數(shù)據(jù)集;支持?jǐn)?shù)學(xué)表達(dá)式Scala DSL;支持多個(gè)分布式后端;適用于CPU/GPU/CUDA加速的模塊化本機(jī)求解器。
4、Knime
KNIME Analytics Platform基于Eclipse,用Java編寫(xiě),是用于承載數(shù)據(jù)科學(xué)任務(wù)的開(kāi)源軟件。它是一種多語(yǔ)言軟件開(kāi)發(fā)環(huán)境,包括一個(gè)集成開(kāi)發(fā)環(huán)境(IDE)和一個(gè)可擴(kuò)展的插件系統(tǒng)。Knime允許從2000多個(gè)節(jié)點(diǎn)中進(jìn)行選擇來(lái)構(gòu)建工作流程;無(wú)需編程就可使用直觀的拖放式圖形界面,創(chuàng)建可視化工作流程。
5、ELKI
ELKI用Java語(yǔ)言編寫(xiě),是一個(gè)開(kāi)源數(shù)據(jù)挖掘軟件。它能夠研究算法,聚類(lèi)分析和離群值檢測(cè)中的無(wú)監(jiān)督方法;提供數(shù)據(jù)索引結(jié)構(gòu),顯著提高性能;方便進(jìn)行擴(kuò)展;提供大量可高度參數(shù)化算法。
6、Rattle
Rattle用R語(yǔ)言編寫(xiě),是用于數(shù)據(jù)挖掘的開(kāi)源GUI。它能夠顯示數(shù)據(jù)的統(tǒng)計(jì)和可視摘要;可以轉(zhuǎn)換數(shù)據(jù)建模;能以圖形方式顯示模型的性能,并對(duì)新數(shù)據(jù)集進(jìn)行評(píng)分以部署到生產(chǎn)中;還提供了可觀的數(shù)據(jù)挖掘功能;通過(guò)圖形用戶界面進(jìn)行的所有交互都被捕獲為R腳本,可以獨(dú)立于Rattle界面在R中輕松執(zhí)行;該工具可用于學(xué)習(xí)和發(fā)展R的技能,然后在Rattle中構(gòu)建初始模型。