成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據輿情情感分析,如何提取情感并使用什么樣的工具?(貼情感標簽)

大數據
情感分析是學術領域研究多年的課題,用google學術搜索可以找到很多paper,基本的方法上有基于詞典規則的方法、語言文法的方法,此外還有分類器以及近幾年比較火的深度學習的方法(稍后有詳細介紹)。

 

by 崔維福

情感分析是學術領域研究多年的課題,用google學術搜索可以找到很多paper,基本的方法上有基于詞典規則的方法、語言文法的方法,此外還有分類器以及近幾年比較火的深度學習的方法(稍后有詳細介紹)。

[[186255]]

各類paper是有一定的借鑒意義的,不過這主要是學術界在單個問題上的細化,要真正從研究領域落地到大數據的處理還有很多工作要做。

一、工程上的處理流程

工程上的處理流程具體包括以下幾個方面:

1、情感分析任務的界定

在進行情感分析任務的界定時,要弄清楚工程的需求到底是什么;要分析文本的哪個層面上的情感,比如篇章、段落、句子、短語、詞等粒度;是不是要分析所有的文本還是分析其中的部分文本;準許的錯誤誤差是在個什么范圍內等。

2、情感分析標準的制定

在實際的企業應用中往往要根據行業的特點來制定一些情感分析的標準,甚至要從客戶的立場中去建立標準。根據國雙實際接觸客戶的經驗,在行業上建立標準后,還需要再具體跟客戶做一些適度調整。

3、 語料數據加工、詞典加工

有了上一步的工作, 接下來進行加工語料或者字典的總結。這一步中不同的方法要做的工作不同,基本上是鋪人力的工作,難點是讓各個語料加工人員能協調一致,執行統一的標準 (通常會在這個過程中還會反作用到第二步情感分析標準的制定,因為看到實際數據后會發現標準總會有一些模糊地帶)

4、根據數據特征、規模等選擇合適的方法,并評測方法的優劣

工程中的方法并不是單一的方法,想用一個方法或者模型來解決各類數據源上的問題是不可能的。想要做出好的效果一定是采用分而治之的思想,比如,能用規則精準過的就不需要用分類器。

當應用在實際產品時,***能結合產品的垂直特點,充分利用垂直行業的特性,比如在金融行業、汽車行業,它們一定有自己的行話,這些行話具有非常明顯的規則或者特征。

二、情感分析方法及工具

情感分析對象的粒度最小是詞匯,但是表達一個情感的最基本的單位則是句子,詞匯雖然能描述情感的基本信息,但是單一的詞匯缺少對象,缺少關聯程度,并且不同的詞匯組合在一起所得到的情感程度不同甚至情感傾向都相反。所以以句子為最基本的情感分析粒度是較為合理的。篇章或者段落的情感也可以通過句子的情感來計算。

現階段關于情感分析方法主要有兩類:

(一)、基于詞典的方法:

基于詞典的方法主要通過制定一系列的情感詞典和規則,對文本進行拆句、分析及匹配詞典(一般有詞性分析,句法依存分析),計算情感值,***通過情感值來作為文本的情感傾向判斷的依據。

做法:

基于詞典的情感分析大致步驟如下:

  • 對大于句子力度的文本進行拆解句子操作,以句子為最小分析單元;
  • 分析句子中出現的詞語并按照情感詞典匹配;
  • 處理否定邏輯及轉折邏輯;
  • 計算整句情感詞得分(根據詞語不同,極性不同,程度不同等因素進行加權求和);
  • 根據情感得分輸出句子情感傾向性。

如果是對篇章或者段落級別的情感分析任務,按照具體的情況,可以以對每個句子進行單一情感分析并融合的形式進行,也可以先抽取情感主題句后進行句子情感分析,得到最終情感分析結果。

參考及工具:

1. 常見英文情感詞庫:GI(The General Inquirer)、sentiWordNet等;

2. 常見中文情感詞庫:知網、臺灣大學的情感極性詞典;

3. 幾種情感詞典構建方法:基于bootstrapping方法的Predicting the semantic orientation of adjectives及Determining the sentiment of opinions兩種最為經典的詞典構建方法。

(二)、 基于機器學習的方法:

情感詞典準確率高,但存在召回率比較低的情況。對于不同的領域,構建情感詞典的難度是不一樣的,精準構建成本較高。另外一種解決情感分析的思路是使用機器學習的方法,將情感分析作為一個有監督的分類問題。對于情感極性的判斷,將目標情感分為三類:正、中、負。對訓練文本進行人工標注,然后進行有監督的機器學習過程,并對測試數據用模型來預測結果。

處理過程:

基于機器學習的情感分析思路是將情感分析作為一個分類問題來處理,具體的流程如下:

1、 文本預處理

文本的預處理過程是使用機器學習作用于文本分類的基礎操作。由于文本是非結構化數據及其特殊性,計算機并不能直接理解,所以需要一系列的預處理操作后,轉換為計算機可以處理的結構化數據。在實際分析中,文本更為復雜,書寫規范也更為隨意,且很有可能摻雜部分噪聲數據。整體上來說,文本預處理模塊包括去噪、特征提取、文本結構化表示等。

特征抽?。?/strong>中文最小語素是字,但是往往詞語才具有更明確的語義信息,但是隨著分詞,可能出現詞語關系丟失的情況。n-元文法正好解決了這個問題,它也是傳統機器學習分類任務中最常用的方法。

文本向量化:對抽取出來的特征,向量化是一個很重要的過程,是實現由人可以理解的文本轉換為計算機可以處理數據的重要一步。這一步最常用到的就是詞袋模型(bag-of-words )以及最近新出的連續分布詞向量模型(word Embedding)。詞袋模型長度為整個詞表的長度,詞語對應維度置為詞頻,文檔的表示往往比較稀疏且維度較高。Embedding的表示方式,能夠有效的解決數據稀疏且降維到固定維度,更好的表示語義信息。對于文檔表示,詞袋模型可以直接疊加,而Embedding的方法可以使用深度學習的方法,通過pooling得到最終表示。

特征選擇:在機器學習分類算法的使用過程中,特征好壞直接影響機器的準確率及召回率。選擇有利于分類的特征,可以有效的減少訓練開支及防止模型過擬合,尤其是數據量較大的情況下,這一部分工作的重要性更加明顯。其選擇方法為,將所有的訓練語料輸入,通過一定的方法,選擇最有效的特征,主要的方法有卡方,信息熵,dp深層感知器等等。

目前也有一些方法,從比句子粒度更細的層次去識別情感,如基于方面的情感分析(Aspect based Sentiment Analysis),他們從產品的評價屬性等更細粒度的方面對評價主體進行情感傾向性分析。

2、分類算法選擇

文本轉換為機器可處理的結構后,接下來便要選擇進行機器學習的分類算法。目前,使用率比較高的是深度學習(CNN,RNN)和支持向量機(SVM)。深度學習的方法,運算量大,準確率有一定的提高,所以都在做這方面的嘗試。而支持向量機則是比較傳統的方法,其準確率及數據處理能力也比較出色,很多人都在用它來做分類任務。

參考及工具:

1. svm分類 libsvm

2. python 機器學習工具scikit-learn

3. 深度學習框架:Tensorflow、Theano

本文選自國雙商業市場在知乎的回答。

責任編輯:張燕妮 來源: 36大數據
相關推薦

2023-02-03 11:40:49

機器學習分析情感

2016-12-07 14:45:25

KNIME情感分析數據分析

2017-05-15 14:00:28

大數據Python情感極性分析

2017-12-20 09:52:50

2018-09-04 11:45:31

前端JavaScriptNodeJS

2016-12-07 14:56:51

KNIME數據分析

2021-10-21 20:32:49

計算

2017-07-12 10:44:31

CNNLSTMNLP

2013-05-31 17:14:40

情感設計Android Des

2019-05-14 10:37:26

Python機器學習編程語言

2016-11-16 15:05:42

情感分析

2022-12-27 08:00:00

開發機器學習數據集

2016-12-07 14:23:48

KNIME數據分析情感分析

2017-05-04 08:48:36

達觀數據分析架構

2019-05-20 13:20:36

Python編程語言情感分析

2022-11-24 15:06:48

AI情感AI

2014-07-18 09:51:05

挖掘數據分析

2018-02-07 17:32:54

情感分析

2022-10-25 08:00:00

Huggingfac開源庫數據倉庫

2023-05-29 08:00:00

ChatGPT人工智能機器學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区在线免费观看 | 亚洲欧美激情视频 | 国产视频1 | 欧美一级久久 | 国产在线91 | 热久久性| 午夜电影合集 | 日韩精品免费在线观看 | 久久久亚洲一区 | 美女黄视频网站 | 亚洲精品电影网在线观看 | 欧美激情在线精品一区二区三区 | 久久久久久综合 | 不卡一区 | 欧美精品一二三区 | 91久久国产| 天天综合久久 | 一级免费视频 | 日韩黄| 福利视频网站 | 在线中文视频 | 一区二区三区四区不卡 | 欧美一a | 国产伦精品一区二区三区照片91 | 亚洲黄色一区二区三区 | 日韩1区2区 | 九九九久久国产免费 | 最新日韩欧美 | 成人在线观看中文字幕 | 九九热免费观看 | 国产成人午夜精品影院游乐网 | 亚洲在线中文字幕 | 亚洲 欧美 日韩在线 | 中文字幕 在线观看 | 精品影院 | 91精品国产综合久久福利软件 | 欧美成年网站 | 极品久久 | 91色视频在线观看 | 亚洲成人久久久 | 免费观看黄a一级视频 |