成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用隨機(jī)森林分類(lèi)算法進(jìn)行Iris 數(shù)據(jù)分類(lèi)訓(xùn)練,是怎樣的體驗(yàn)?

大數(shù)據(jù) 算法
MLlib是Spark的機(jī)器學(xué)習(xí)(ML)庫(kù),旨在簡(jiǎn)化機(jī)器學(xué)習(xí)的工程實(shí)踐工作,并方便擴(kuò)展到更大規(guī)模。

[[205745]]

MLlib是Spark的機(jī)器學(xué)習(xí)(ML)庫(kù),旨在簡(jiǎn)化機(jī)器學(xué)習(xí)的工程實(shí)踐工作,并方便擴(kuò)展到更大規(guī)模。

MLlib由一些通用的學(xué)習(xí)算法和工具組成,包括分類(lèi)、回歸、聚類(lèi)、協(xié)同過(guò)濾、降維等,同時(shí)還包括底層的優(yōu)化原語(yǔ)和高層的管道API。

MLllib目前分為兩個(gè)代碼包:spark.mllib 包含基于RDD的原始算法API。

spark.ml ,提供了基于DataFrames高層次的API,可以用來(lái)構(gòu)建機(jī)器學(xué)習(xí)管道,F(xiàn)EA-spk技術(shù)的機(jī)器學(xué)習(xí)就是基于spark.ml 包。

spark.ml 包,是基于DataFrame的,未來(lái)將成為Spark機(jī)器學(xué)習(xí)的主要API。它可以在分布式集群上進(jìn)行大規(guī)模的機(jī)器學(xué)習(xí)模型訓(xùn)練,并且可以對(duì)數(shù)據(jù)進(jìn)行可視化。

一、隨機(jī)森林分類(lèi)算法的介紹

隨機(jī)森林顧名思義,是用隨機(jī)的方式建立一個(gè)森林,森林里面有很多的決策樹(shù)組成,隨機(jī)森林的每一棵決策樹(shù)之間是沒(méi)有關(guān)聯(lián)的。在得到森林之后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入時(shí),就讓森林中的每一棵決策樹(shù)分別進(jìn)行一下判斷,看看這個(gè)樣本應(yīng)該屬于哪一類(lèi)(對(duì)應(yīng)分類(lèi)算法),然后看看哪一類(lèi)被選擇最多,就預(yù)測(cè)這個(gè)樣本為那一類(lèi)。

使用Spark MLlib隨機(jī)森林算法存在不足,需要改進(jìn)!

具體來(lái)講,使用Spark MLlib進(jìn)行模型的訓(xùn)練,需要進(jìn)行大量的數(shù)據(jù)轉(zhuǎn)化,列聚合為向量等。非常麻煩,并且不能做數(shù)據(jù)的可視化。

而FEA-spk技術(shù)可以很好的解決這些問(wèn)題。對(duì)模型進(jìn)行訓(xùn)練只需要一句命令就行了,并且可以對(duì)結(jié)果數(shù)據(jù)進(jìn)行可視化展示。

二、Iris 數(shù)據(jù)分類(lèi)訓(xùn)練案例

下面列舉一個(gè)用隨機(jī)森林分類(lèi)算法進(jìn)行Iris 數(shù)據(jù)分類(lèi)的例子。

1. 數(shù)據(jù)準(zhǔn)備

原始的數(shù)據(jù)以及相應(yīng)的說(shuō)明可以到https://pan.baidu.com/s/1c2d0hpA下載。 我在這基礎(chǔ)之上,增加了header信息。

這里將下載好的數(shù)據(jù)放到hdfs上面進(jìn)行讀取。

2. Iris 數(shù)據(jù)進(jìn)行訓(xùn)練的具體步驟

(1)要使用FEA-spk技術(shù),首先要?jiǎng)?chuàng)建一個(gè)spk的連接,所有的操作都是以它為上下文進(jìn)行的。在fea界面運(yùn)行以下命令

(2)加載數(shù)據(jù),數(shù)據(jù)在hdfs上面,數(shù)據(jù)的格式為csv文件格式,目錄為/data/iris_data.txt

(3)使用ML_si方法將字符型的label變成index

(4)將特征列的類(lèi)型轉(zhuǎn)化為double類(lèi)型,因?yàn)閟park.ml只支持double類(lèi)型,使用 ML_double方法

(5)使用隨機(jī)森林模型進(jìn)行訓(xùn)練

在訓(xùn)練RandomForest模型的時(shí)候,我們需要設(shè)置好幾個(gè)參數(shù):

  • maxBins

***裝箱數(shù),為了近似統(tǒng)計(jì)變量,比如變量有100個(gè)值,我只分成10段去做統(tǒng)計(jì),默認(rèn)值是32;

  • numTrees

森林里有幾棵樹(shù),默認(rèn)值是20;

  • minInstancesPerNode

每個(gè)節(jié)點(diǎn)最少實(shí)例,默認(rèn)值是1;

  • minInfoGain

最小信息增益,默認(rèn)值是0.0;

  • maxDepth

***樹(shù)深度,默認(rèn)值是5;

  • maxMemoryInMB

***內(nèi)存MB單位,這個(gè)值越大,一次處理的節(jié)點(diǎn)劃分就越多,默認(rèn)值是256;

  • cacheNodeIds

是否緩存節(jié)點(diǎn)id,緩存可以加速深層樹(shù)的訓(xùn)練,默認(rèn)值是False;

  • checkpointInterval

檢查點(diǎn)間隔,就是多少次迭代固化一次,默認(rèn)值是10;

  • impurity

隨機(jī)森林有三種方式,entropy,gini,variance,回歸肯定就是variance,默認(rèn)值是gini;

  • seed

采樣種子,種子不變,采樣結(jié)果不變,默認(rèn)值None;

  • featureSubsetStrategy

auto: 默認(rèn)參數(shù)。讓算法自己決定,每顆樹(shù)使用幾條數(shù)據(jù)。

使用的參數(shù)如下圖所示

(6)對(duì)訓(xùn)練好的模型進(jìn)行打分

可以看到準(zhǔn)確率達(dá)到了97%

(7)將訓(xùn)練好的模型保存到hdfs上面,以供下次使用

這個(gè)非常實(shí)用,對(duì)于模型比較大的情況下,利用HDFS的分布式結(jié)構(gòu)就可以提高加載性能。

(8)將hdfs上面保存的模型加載進(jìn)來(lái)

(9)對(duì)加載后的模型做預(yù)測(cè)

其中prediction列就是預(yù)測(cè)的結(jié)果

以上就是使用FEA-spk技術(shù)進(jìn)行機(jī)器學(xué)習(xí)的步驟,它非常適合數(shù)據(jù)分析處理大規(guī)模的數(shù)據(jù),簡(jiǎn)單、強(qiáng)大、可視化,不懂Java\Python同樣可以玩轉(zhuǎn)Spark!

責(zé)任編輯:武曉燕 來(lái)源: openfea博客
相關(guān)推薦

2023-09-22 10:34:19

學(xué)習(xí)算法隨機(jī)森林Java

2020-10-10 12:53:57

邏輯回歸機(jī)器學(xué)習(xí)分析

2022-08-19 07:38:51

數(shù)據(jù)備份系統(tǒng)存儲(chǔ)

2015-10-30 16:09:23

分類(lèi)算法總結(jié)

2015-10-09 10:59:26

算法分類(lèi)

2018-01-31 14:11:31

微信紅包隨機(jī)

2022-08-10 15:09:44

數(shù)據(jù)安全大數(shù)據(jù)數(shù)據(jù)分類(lèi)

2022-12-04 00:09:07

2016-08-31 14:41:31

大數(shù)據(jù)實(shí)時(shí)分析算法分類(lèi)

2024-12-09 09:44:34

機(jī)器學(xué)習(xí)模型分類(lèi)器

2023-01-11 07:28:49

TensorFlow分類(lèi)模型

2018-04-09 10:20:32

深度學(xué)習(xí)

2021-02-23 15:13:41

人工智能機(jī)器學(xué)習(xí)數(shù)據(jù)

2023-02-23 08:00:00

Python機(jī)器學(xué)習(xí)編程代碼

2018-03-26 20:49:08

圖像分類(lèi)

2018-04-16 12:14:34

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2023-02-17 08:10:58

2018-04-06 05:10:04

K-NN數(shù)據(jù)集算法

2024-09-20 10:02:13

2022-06-05 21:16:08

機(jī)器學(xué)習(xí)Python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 99精品电影 | 成人av看片 | 欧美精品一区在线观看 | 一区二区三区欧美在线观看 | 国产一区在线免费观看视频 | 国产aⅴ | 波多野结衣亚洲 | 999久久久久久久 | 亚洲精品一区二区在线观看 | 天天天天天操 | 81精品国产乱码久久久久久 | 91国内视频在线 | 呦呦在线视频 | 久草视 | 午夜男人天堂 | 九九免费视频 | 国产精品国产三级国产播12软件 | 国产在线观看一区二区 | 国产精品久久久久久久久久妇女 | 九色一区 | 风间由美一区二区三区在线观看 | 久久一区二区三区四区五区 | 天天操天天插 | 国产午夜视频 | 日韩欧美在线播放 | 欧美无乱码久久久免费午夜一区 | 在线国产一区二区 | 日本不卡一区二区 | 日韩影院在线观看 | 夜夜操天天操 | 亚洲精品久久久一区二区三区 | 成人中文网| 日韩在线播放第一页 | 亚洲成人www | 91精品国产91久久久久久最新 | 天天操网 | 午夜三区 | 国产精品乱码一区二三区小蝌蚪 | 日韩精品一区二区三区 | 国产免费观看久久黄av片涩av | 久久精品亚洲精品 |