成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何用KNIME進(jìn)行情感分析 | 下

大數(shù)據(jù) 數(shù)據(jù)分析
這一篇中,我們將使用N元語法(N-gram),借助KNIME來探究如何選取詞語特征,獲得的模型能夠?qū)崿F(xiàn)更準(zhǔn)確地分類。

如何能夠讓機器“讀懂”人的情感?情感分析提供了解決的一個思路。這也使得它成為自然語言分析(Natural Language Processing)中最令人神往的山對面的“風(fēng)景”。

什么是情感分類(sentiment classification)

簡單說,就是對于一句或一段話,判斷說話者的情感,是正向(積極)的,還是負(fù)向(消極)的。這種情感分類任務(wù)可以看作一個二分類問題。

完成情感分類的核心問題

決定分類準(zhǔn)確率的關(guān)鍵在于特征的選取與語料的質(zhì)量。其中特征問題解決的是:用什么樣的特征來抽取,得到的文本才足夠原始呢?每個詞看似已經(jīng)是文本的足夠底層的特征,但其實也是經(jīng)過高度抽象的。這也會給深度學(xué)習(xí)在自然語言領(lǐng)域的應(yīng)用帶來一些困難。同樣,這也是提高模型準(zhǔn)確度的一個有效的方法。

在上一篇情感分析的講解中,我們已經(jīng)知道如何使用KNIME構(gòu)造一個情感分析模型。這一篇中,我們將使用N元語法(N-gram),借助KNIME來探究如何選取詞語特征,獲得的模型能夠?qū)崿F(xiàn)更準(zhǔn)確地分類。

N元語法

在計算語言學(xué)中,n-gram指的是文本中連續(xù)的n個item。n-gram中如果n=1則為unigram,n=2則為bigram,n=3則為trigram。n>4后,則直接用數(shù)字指稱,如4-gram,5gram。(Wikipedia)

以 I would like to go to Beijing. 這句話為例。

bigram為:

  • I would
  • would like
  • like to
  • to go
  • go to
  • to Beijing

如何用KNIME進(jìn)行情感分析 | 下
結(jié)點概覽

1.讀取CSV格式文件

使用CSV reader結(jié)點讀取一個CSV格式文件,該文件寫入了1500條載于IMBD上的影評,并且給出了情感向量即POS(positive)和NEG(negative)。

如何用KNIME進(jìn)行情感分析 | 下

2.字符串轉(zhuǎn)化為文檔格式

接下來將字符串轉(zhuǎn)化為文檔格式,繼而使用“過濾”節(jié)點刪除無關(guān)列,使文件只留下儲存文檔對象的一列。

如何用KNIME進(jìn)行情感分析 | 下
以上結(jié)點內(nèi)屬于Document creation元結(jié)點

3.數(shù)據(jù)預(yù)處理

首先計算特征詞語需要在文檔中出現(xiàn)最小次數(shù)N。利用java語句計算:out_MinDF = (Number_Rows / 100) * Min_Percentage

如何用KNIME進(jìn)行情感分析 | 下

繼而進(jìn)行刪除標(biāo)點,刪除數(shù)字,刪除文檔中出現(xiàn)次數(shù)小于N的詞匯,將大寫轉(zhuǎn)化為小寫,提取詞語主干(stemmed)和刪除停用詞(stop word)。至此我們可以完成預(yù)處理。但是由于我們想探索的是雙詞分類與單詞分類的效果差異,所以這里花開兩朵各表一枝,雙詞分類的這一支不需要做主干提取和停用詞刪除的工作。

如何用KNIME進(jìn)行情感分析 | 下

(stemmed意指將詞的變形歸類,使得機器在處理文本時減少需要跟蹤的獨特詞匯,這會加快“標(biāo)簽化”處理的過程。停用詞是人類語言中沒有實際意義或功用的詞語,如助詞,限定詞等)

4.通過單詞或雙詞建立文本特征向量

想象在一個巨大的文檔集合,里面一共有M個文檔,而文檔里面的所有單詞提取出來后,一起構(gòu)成一個包含N個單詞的詞典,利用詞袋(Bag-of-words)模型,每個文檔都可以被表示成為一個N維向量(將每篇文檔表示為一個向量,每一維度代表一個詞語,其數(shù)值代表詞語在該文檔中的出現(xiàn)次數(shù))。這樣,就可以利用計算機來完成海量文檔的分類過程。

一般來說,太多的特征會降低分類的準(zhǔn)確度,所以需要使用一定的方法,來“選擇”出信息量最豐富的特征,再使用這些特征來分類。

特征選擇遵循如下步驟:

  • 1. 計算出整個語料里面每個詞的信息量
  • 2. 根據(jù)信息量進(jìn)行倒序排序,選擇排名靠前的信息量的詞
  • 3. 把這些詞作為特征

如何用KNIME進(jìn)行情感分析 | 下

5.構(gòu)建模型

通過決策樹算法構(gòu)建模型在上一篇已經(jīng)講過,需要注意的是本篇需要對1-gram特征和1-gram 2-gram集合特征分別構(gòu)建模型,以進(jìn)行比較。這里不再贅述。

如何用KNIME進(jìn)行情感分析 | 下

6.ROC曲線對比

在文檔向量集創(chuàng)建后,詞匯的情感分類已經(jīng)被提取出來,系統(tǒng)自動創(chuàng)建了兩種預(yù)測模型并打分。一個模型基于一個單獨詞匯的特征建立,第二個模型基于1-gram和2gram集合的特征。接著通過ROC接收器操作特性曲線(receiver operating characteristic curve)對這兩個進(jìn)行比較。

如何用KNIME進(jìn)行情感分析 | 下

可以看出,在分析影評這一文本的情感態(tài)度時,使用N元語法構(gòu)建出來的情感分類模型,診斷準(zhǔn)確度更高,為85.05%。這樣有助于我們針對“何種情感分類模型對NLP分析更為有效”這一問題時做出決策。

點擊查看:
如何用KNIME進(jìn)行情感分析 | 上

如何用KNIME進(jìn)行情感分析 | 中

責(zé)任編輯:未麗燕 來源: KNIME/情感分析/數(shù)據(jù)分析
相關(guān)推薦

2016-12-07 14:45:25

KNIME情感分析數(shù)據(jù)分析

2016-12-07 14:23:48

KNIME數(shù)據(jù)分析情感分析

2016-11-16 15:05:42

情感分析

2018-01-04 13:07:43

Python機器學(xué)習(xí)情感分析

2017-10-10 13:13:48

2018-09-04 11:45:31

前端JavaScriptNodeJS

2019-01-15 14:21:13

Python數(shù)據(jù)分析數(shù)據(jù)

2018-06-19 08:35:51

情感分析數(shù)據(jù)集代碼

2019-05-14 10:37:26

Python機器學(xué)習(xí)編程語言

2023-02-03 11:40:49

機器學(xué)習(xí)分析情感

2017-03-21 10:55:22

大數(shù)據(jù)

2023-12-12 09:00:00

2018-08-21 07:50:06

Python 大數(shù)據(jù)編程語言

2011-07-26 10:09:07

組策略軟件部署

2021-01-05 08:00:00

Windows 10工具GPU

2016-12-07 09:27:11

KNIME大數(shù)據(jù)網(wǎng)絡(luò)

2019-07-24 09:00:00

New Relic性能工程壓力測試

2020-12-15 20:00:09

比特幣加密貨幣區(qū)塊鏈

2014-09-22 19:30:02

大數(shù)據(jù)軟件分析金融數(shù)據(jù)

2016-09-17 00:12:46

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩一级不卡 | 精品久| 91精品国产综合久久精品 | 日本成人中文字幕 | 91精品国产综合久久久久久蜜臀 | 97国产精品视频人人做人人爱 | 久久久tv| 国产一区二区视频免费在线观看 | 免费视频一区二区 | 成人区一区二区三区 | 日韩中文电影 | 伊人网站| 亚洲美女一区二区三区 | 精品一区二区三区电影 | 欧美色综合 | 欧美11一13sex性hd | 亚洲高清在线观看 | 精品91久久 | 国产免费一区 | 精品视频在线观看 | 亚洲成人一二三 | 色婷婷久久久久swag精品 | 成人片免费看 | 91黄在线观看 | 国产精品久久久久久久久图文区 | 国产精品一区二区三区在线播放 | 成人网在线观看 | 波多野结衣亚洲 | 视频羞羞| 久久精品一区二区 | 国产精品视频一区二区三 | 国产一区二区三区在线 | 久久精品97 | 久久免费精品视频 | 日韩在线免费观看视频 | 91av视频在线 | 在线观看国产三级 | 国产成人精品一区二区三 | 日韩免费高清视频 | 久久久久久免费毛片精品 | 欧州一区二区三区 |