成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一個(gè)資深數(shù)據(jù)人對(duì)數(shù)據(jù)挖掘解讀

大數(shù)據(jù) 數(shù)據(jù)分析
在銀行做了兩年的數(shù)據(jù)分析和挖掘工作,較少接觸互聯(lián)網(wǎng)的應(yīng)用場(chǎng)景,因此,一直都在思考一個(gè)問(wèn)題,“互聯(lián)網(wǎng)和金融,在數(shù)據(jù)挖掘上,究竟存在什么樣的區(qū)別”。在對(duì)這個(gè)問(wèn)題的摸索和理解過(guò)程中,發(fā)現(xiàn)數(shù)據(jù)挖掘本身包含很多層次。并且模型本身也是存在傳統(tǒng)和時(shí)髦之分的。本文就想聊聊這些話題。

在銀行做了兩年的數(shù)據(jù)分析和挖掘工作,較少接觸互聯(lián)網(wǎng)的應(yīng)用場(chǎng)景,因此,一直都在思考一個(gè)問(wèn)題,“互聯(lián)網(wǎng)和金融,在數(shù)據(jù)挖掘上,究竟存在什么樣的區(qū)別”。在對(duì)這個(gè)問(wèn)題的摸索和理解過(guò)程中,發(fā)現(xiàn)數(shù)據(jù)挖掘本身包含很多層次。并且模型本身也是存在傳統(tǒng)和時(shí)髦之分的。本文就想聊聊這些話題。

[[184258]]

一、數(shù)據(jù)挖掘的層次

一直想整理下對(duì)數(shù)據(jù)挖掘不同層次的理解,這也是這兩年多的時(shí)間里面,和很多金融領(lǐng)域、互聯(lián)網(wǎng)做數(shù)據(jù)相關(guān)工作的小伙伴,聊天交流的一些整理和歸納。大概可以分為四類。

大數(shù)據(jù)

(一)純粹的數(shù)據(jù)加工

側(cè)重于變量加工和預(yù)處理,從源系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù),對(duì)相關(guān)數(shù)據(jù)進(jìn)行提取、加工、衍生處理,生成各種業(yè)務(wù)表。然后,以客戶號(hào)為主鍵,把這些業(yè)務(wù)表整合匯總,最終可以拉出一張大寬表,這張寬表就可以稱之為“客戶畫像”。即,有關(guān)客戶的很多變量和特征的集合。

在這個(gè)階段,主要的數(shù)據(jù)加工工具為SQL和SAS base。

(二)傻瓜式的挖掘工具

較為典型的就是SAS EM和clementine,里面嵌入很多較為傳統(tǒng)成熟的算法、模塊和節(jié)點(diǎn)(例如邏輯回歸、決策樹、SVM、神經(jīng)網(wǎng)絡(luò)、KNN、聚類等)。通過(guò)鼠標(biāo)的托拉拽,流程式的節(jié)點(diǎn),基本上就可以實(shí)現(xiàn)你挖掘數(shù)據(jù)的需求。

傻瓜式操作的優(yōu)點(diǎn)就是使得數(shù)據(jù)挖掘,入手非常快,較為簡(jiǎn)單。但是,也存在一些缺陷,即,使得這個(gè)挖掘過(guò)程變得有點(diǎn)單調(diào)和無(wú)趣。沒(méi)辦法批量運(yùn)算模型,也沒(méi)辦法開(kāi)發(fā)一些個(gè)性化的算法和應(yīng)用。用的比較熟練,并且想要進(jìn)一步提升的時(shí)候,建議把這兩者拋棄。

(三)較為自由的挖掘工具

較為典型的就是R語(yǔ)言和Python。這兩個(gè)挖掘工具是開(kāi)源的,前者是統(tǒng)計(jì)學(xué)家開(kāi)發(fā)的,后者是計(jì)算機(jī)學(xué)家開(kāi)發(fā)的。

一方面,可以有很多成熟的、前沿的算法包調(diào)用,另外一方面,還可以根據(jù)自己的需求,對(duì)既有的算法包進(jìn)行修改調(diào)整,適應(yīng)自己的分析需求,較為靈活。此外,Python在文本、非結(jié)構(gòu)化數(shù)據(jù)、社會(huì)網(wǎng)絡(luò)方面的處理,功能比較強(qiáng)大。

(四)算法拆解和自行開(kāi)發(fā)

一般會(huì)利用python、c、c++,自己重新編寫算法代碼。例如,通過(guò)自己的代碼實(shí)現(xiàn)邏輯回歸運(yùn)算過(guò)程。甚至,根據(jù)自己的業(yè)務(wù)需求和數(shù)據(jù)特點(diǎn),更改其中一些假定和條件,以便提高模型運(yùn)算的擬合效果。尤其,在生產(chǎn)系統(tǒng)上,通過(guò)C編寫的代碼,運(yùn)行速度比較快,較易部署,能夠滿足實(shí)時(shí)的運(yùn)算需求。

一般來(lái)說(shuō),從互聯(lián)網(wǎng)的招聘和對(duì)技能的需求來(lái)說(shuō),一般JD里面要求了前三種,這樣的職位會(huì)被稱為“建模分析師”。但是如果增加上了***一條,這樣的職位或許就改稱為“算法工程師”。

二、模型的理解:傳統(tǒng)的和時(shí)髦的

據(jù)理解,模型應(yīng)該包括兩種類型。一類是傳統(tǒng)的較為成熟的模型,另外一類是較為時(shí)髦有趣的模型。對(duì)于后者,大家會(huì)表現(xiàn)出更多的興趣,一般是代表著新技術(shù)、新方法和新思路。

(一)傳統(tǒng)的模型

傳統(tǒng)的模型,主要就是為了解決分類(例如決策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸等)、預(yù)測(cè)(例如回歸分析、時(shí)間序列等)、聚類(kmeans、系譜、密度聚類等)、關(guān)聯(lián)(無(wú)序關(guān)聯(lián)和有序關(guān)聯(lián))這四類問(wèn)題。這些都是較為常規(guī)和經(jīng)典的。

(二)時(shí)髦有趣的模型

比較有趣、前沿的模型,大概包括以下幾種類型,即社會(huì)網(wǎng)絡(luò)分析、文本分析、基于位置的服務(wù)(Location-Based Service,LBS)、數(shù)據(jù)可視化等。

它們之所以比較時(shí)髦,可能的原因是,采用比較新穎前沿的分析技術(shù)(社會(huì)網(wǎng)絡(luò)、文本分析),非常貼近實(shí)際的應(yīng)用(LBS),或者是能夠帶來(lái)更好的客戶體驗(yàn)(數(shù)據(jù)可視化)。

大數(shù)據(jù)

(1)社會(huì)網(wǎng)絡(luò)的應(yīng)用

傳統(tǒng)的模型將客戶視為單一個(gè)體,忽視客戶之間的關(guān)系,基于客戶的特征建立模型。社會(huì)網(wǎng)絡(luò)是基于群體的,側(cè)重研究客戶之間的關(guān)聯(lián),通過(guò)網(wǎng)絡(luò)、中心度、聯(lián)系強(qiáng)度、密度,得到一些非常有趣的結(jié)果。典型的應(yīng)用,例如,關(guān)鍵客戶的識(shí)別、新產(chǎn)品的滲透和擴(kuò)散、微博的傳播、風(fēng)險(xiǎn)的傳染、保險(xiǎn)或信用卡網(wǎng)絡(luò)團(tuán)伙欺詐、基于社會(huì)網(wǎng)絡(luò)的推薦引擎開(kāi)發(fā)等。

[[184260]]

(2)文本挖掘的應(yīng)用

文本作為非結(jié)構(gòu)化數(shù)據(jù),加工分析存在一定的難度,包括如何分詞、如何判斷多義詞、如何判斷詞性,如何判斷情緒的強(qiáng)烈程度。典型的應(yīng)用,包括搜索引擎智能匹配、通過(guò)投訴文本判斷客戶情緒、通過(guò)輿情監(jiān)控品牌聲譽(yù)、通過(guò)涉訴文本判定企業(yè)經(jīng)營(yíng)風(fēng)險(xiǎn)、通過(guò)網(wǎng)絡(luò)爬蟲抓取產(chǎn)品評(píng)論、詞云展示等。

大數(shù)據(jù)

文本和濕人。關(guān)于文本分析,最近朋友圈有篇分享,很有意思,號(hào)稱可以讓你瞬間變成濕人。原理很簡(jiǎn)單,就是先把《全宋詞》分詞,然后統(tǒng)計(jì)頻數(shù)前100的詞語(yǔ)。然后你可以隨機(jī)湊6個(gè)數(shù)(1-100),這樣就可以拼湊出兩句詩(shī)。比如,隨機(jī)寫兩組數(shù)字,(2,37,66)和(57,88,33),對(duì)應(yīng)的詞語(yǔ)為(東風(fēng)、無(wú)人、黃花)和(憔悴、今夜、風(fēng)月)。組成兩句詩(shī),即“東風(fēng)無(wú)人黃花落,憔悴今夜風(fēng)月明”。還真像那么一回事,有興趣可以玩一玩。

(3)LBS應(yīng)用

即基于位置的服務(wù),即如何把服務(wù)和用戶的地理位置結(jié)合。當(dāng)下的APP應(yīng)用,如果不能很好地和地理位置結(jié)合,很多時(shí)候很難有旺盛的生命力。典型的APP,例如大眾點(diǎn)評(píng)(餐飲位置)、百度地圖(位置和路徑)、滴滴打車、微信位置共享、時(shí)光網(wǎng)(電影院位置)等服務(wù)。此外,銀行其實(shí)也在研究,如何把線上客戶推送到距離客戶最近的網(wǎng)點(diǎn),完成O2O的***對(duì)接,從而帶來(lái)更好的客戶體驗(yàn)。

[[184261]]

(4)可視化應(yīng)用

基于地圖的一些可視化分析,比較熱門,例如,春節(jié)人口遷徙圖、微信活躍地圖、人流熱力圖、擁堵數(shù)據(jù)的可視化、社會(huì)網(wǎng)絡(luò)擴(kuò)散可視化等。

如果你想讓你的分析和挖掘比較吸引眼球,請(qǐng)盡量往以上四個(gè)方面靠攏。

三、互聯(lián)網(wǎng)和金融數(shù)據(jù)挖掘的差異

博士后兩年,對(duì)銀行領(lǐng)域的數(shù)據(jù)挖掘有些基本的了解和認(rèn)識(shí),但是面對(duì)浩瀚的數(shù)據(jù)領(lǐng)域,也只能算剛剛?cè)腴T。很多時(shí)候,會(huì)很好奇互聯(lián)網(wǎng)領(lǐng)域,做數(shù)據(jù)挖掘究竟是什么樣的形態(tài)。

很早之前,就曾在知乎上提了個(gè)問(wèn)題,“金融領(lǐng)域的數(shù)據(jù)挖掘和互聯(lián)網(wǎng)中的數(shù)據(jù)挖掘,究竟有什么的差異和不同”。這個(gè)問(wèn)題掛了幾個(gè)月,雖有寥寥的回答,但是沒(méi)有得到想要的答案。

既然沒(méi)人能夠提供想要的答案,那就,根據(jù)自己的理解、一些場(chǎng)合的碰壁、以及和一些互聯(lián)網(wǎng)數(shù)據(jù)小伙伴的接觸,試圖歸納和回答下。應(yīng)該有以下幾個(gè)方面的差異。

大數(shù)據(jù)

(一)“分析”和“算法”

在互聯(lián)網(wǎng)中,“分析”和“算法”,分得非常開(kāi),對(duì)應(yīng)著“數(shù)據(jù)分析師”和“算法工程師”兩種角色。前者更多側(cè)重?cái)?shù)據(jù)提取、加工、處理、運(yùn)用成熟的算法包,開(kāi)發(fā)模型,探索數(shù)據(jù)中的模式和規(guī)律。后者更多的是,自己寫算法代碼,通過(guò)C或python部署到生產(chǎn)系統(tǒng),實(shí)時(shí)運(yùn)算和應(yīng)用。

在銀行領(lǐng)域,基本上,只能看到***種角色。數(shù)據(jù)基本上來(lái)源于倉(cāng)庫(kù)系統(tǒng),然后運(yùn)用SQL、SAS、R,提取、加工、建模和分析。

(二)數(shù)據(jù)類型

數(shù)據(jù)類型,主要包括“結(jié)構(gòu)化”和“非結(jié)構(gòu)化”兩類數(shù)據(jù)。前者就是傳統(tǒng)的二維表結(jié)構(gòu)。一行一條記錄,一列一個(gè)變量。后者包括文本、圖像、音頻、視頻等。

銀行里面的數(shù)據(jù),更多的是結(jié)構(gòu)化數(shù)據(jù),也有少量的非結(jié)構(gòu)化數(shù)據(jù)(投訴文本、貸款審批文本等)。業(yè)務(wù)部門對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析需求比較少。因此,在非結(jié)構(gòu)化數(shù)據(jù)的分析建模方面,稍顯不足。

互聯(lián)網(wǎng),更多的是網(wǎng)絡(luò)日志數(shù)據(jù),以文本等非結(jié)構(gòu)化數(shù)據(jù)為主,然后通過(guò)一定的工具將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),進(jìn)一步加工和分析。

(三)工具、存儲(chǔ)和架構(gòu)

互聯(lián)網(wǎng),基本上是免費(fèi)導(dǎo)向,所以常常選擇開(kāi)源的工具,例如MySql、R、Python等。常常是基于hadoop的分布式數(shù)據(jù)采集、加工、存儲(chǔ)和分析。

商業(yè)銀行一般基于成熟的數(shù)據(jù)倉(cāng)庫(kù),例如TD,以及一些成熟的數(shù)據(jù)挖掘工具,SAS EG和EM。

(四)應(yīng)用場(chǎng)景

在應(yīng)用場(chǎng)景上,兩者之間也存在著非常大的差異。

(1)金融領(lǐng)域

金融領(lǐng)域的數(shù)據(jù)挖掘,不同的細(xì)分行業(yè)(如銀行和證券),也是存在差別的。

銀行領(lǐng)域的統(tǒng)計(jì)建模。銀行內(nèi)的數(shù)據(jù)挖掘,較為側(cè)重統(tǒng)計(jì)建模,數(shù)據(jù)分析對(duì)象主要為截面數(shù)據(jù),一般包括客戶智能(CI)、運(yùn)營(yíng)智能(OI)和風(fēng)險(xiǎn)智能(RI)。開(kāi)發(fā)的模型以離線為主,少量模型,例如反欺詐、申請(qǐng)?jiān)u分,對(duì)實(shí)時(shí)性的要求比較高。

證券領(lǐng)域的量化分析。證券行業(yè)的挖掘工作,更加側(cè)重量化分析,分析對(duì)象更多的是時(shí)間序列數(shù)據(jù),旨在從大盤指數(shù)、波動(dòng)特點(diǎn)、歷史數(shù)據(jù)中發(fā)現(xiàn)趨勢(shì)和機(jī)會(huì),進(jìn)行短期的套利操作。量化分析的實(shí)時(shí)性要求也比較高,可能是離線運(yùn)算模型,但是在交易系統(tǒng)部署后,實(shí)時(shí)運(yùn)算,捕捉交易事件和交易機(jī)會(huì)。

(2)互聯(lián)網(wǎng)

互聯(lián)網(wǎng)的實(shí)時(shí)計(jì)算。互聯(lián)網(wǎng)的應(yīng)用場(chǎng)景,例如推薦引擎、搜索引擎、廣告優(yōu)化、文本挖掘(NLP)、反欺詐分析等,很多時(shí)候需要將模型部署在生產(chǎn)系統(tǒng),對(duì)實(shí)時(shí)響應(yīng)要求比較高,需要保證比較好的客戶體驗(yàn)。

四、數(shù)據(jù)挖掘在金融領(lǐng)域的典型應(yīng)用

別人常常會(huì)問(wèn),在銀行里面,數(shù)據(jù)挖掘究竟是做什么的。也常常在思考如何從對(duì)方的角度回答這個(gè)問(wèn)題。舉幾個(gè)常見(jiàn)的例子做個(gè)詮釋。

(一)信用評(píng)分

申請(qǐng)?jiān)u分。當(dāng)你申請(qǐng)信用卡、消費(fèi)貸款、經(jīng)營(yíng)貸款時(shí),銀行是否會(huì)審批通過(guò),發(fā)放多大規(guī)模的額度?這個(gè)判斷很可能就是申請(qǐng)?jiān)u分模型運(yùn)算的結(jié)果。通過(guò)模型計(jì)算你的還款能力和還款意愿,綜合評(píng)定放款額度和利率水平。

行為評(píng)分。當(dāng)你信用卡使用一段時(shí)間后,銀行會(huì)根據(jù)你的刷卡行為和還款記錄,通過(guò)行為評(píng)分模型,判斷是否給你調(diào)整固定額度。

(二)個(gè)性化產(chǎn)品推薦

很多時(shí)候,你可能會(huì)收到銀行推送的短信或者接到銀行坐席的外呼,比如,向你推薦某款理財(cái)產(chǎn)品。這背后,很可能就是產(chǎn)品響應(yīng)模型運(yùn)算的結(jié)果。銀行會(huì)通過(guò)模型,計(jì)算你購(gòu)買某款理財(cái)產(chǎn)品的概率,如果概率比價(jià)高的話,就會(huì)向你推送這款理財(cái)產(chǎn)品。

此外,很多時(shí)候,不同的客戶,銀行會(huì)個(gè)性化的推薦不同的產(chǎn)品,很可能就是產(chǎn)品關(guān)聯(lián)分析模型運(yùn)算的結(jié)果。

(三)個(gè)性化廣告展示

登陸商業(yè)銀行網(wǎng)站時(shí),通常會(huì)有一個(gè)廣告banner,banner上會(huì)展示若干幅廣告。很多時(shí)候,不同的客戶登陸網(wǎng)站,會(huì)接觸到不同的廣告,即個(gè)性化的廣告推送。一般來(lái)說(shuō),后臺(tái)經(jīng)過(guò)計(jì)算,會(huì)判斷,你對(duì)哪幾款廣告和產(chǎn)品感興趣,***推送3-5款你最感興趣的產(chǎn)品,從而能夠有效吸引你的注意,促進(jìn)點(diǎn)擊、轉(zhuǎn)化和成交。

責(zé)任編輯:張燕妮 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2011-12-26 09:56:57

數(shù)據(jù)中心服務(wù)器宕機(jī)

2014-10-08 11:26:14

2012-11-30 11:12:03

2014-08-15 10:29:18

數(shù)據(jù)挖掘人生選擇

2015-09-24 14:12:34

醫(yī)療大數(shù)據(jù)數(shù)據(jù)化

2016-08-28 12:31:22

2020-11-25 08:00:00

數(shù)據(jù)分析人工智能技術(shù)

2019-01-08 11:00:22

華為

2025-04-29 09:26:34

Orange交互式數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)

2016-10-17 16:19:43

數(shù)據(jù)挖掘問(wèn)題

2020-07-28 07:55:33

Python開(kāi)發(fā)工具

2022-05-26 10:42:30

數(shù)據(jù)權(quán)限注解

2016-10-28 12:48:23

R語(yǔ)言Python數(shù)據(jù)分析

2022-06-06 16:49:49

物聯(lián)網(wǎng)產(chǎn)業(yè)鏈

2015-09-07 13:38:41

數(shù)據(jù)分析

2011-04-11 10:42:50

Access 2007

2013-03-08 02:52:03

個(gè)人開(kāi)發(fā)項(xiàng)目糾錯(cuò)

2018-10-25 14:47:53

分析消費(fèi)數(shù)據(jù)挖掘

2020-02-03 14:44:28

數(shù)據(jù)數(shù)據(jù)發(fā)展數(shù)字業(yè)務(wù)

2012-06-27 09:45:41

ibmdw
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产成人一区二区三区电影 | 国产精品国色综合久久 | 亚洲成人福利 | 成人午夜视频在线观看 | 欧美视频在线一区 | 欧美一区在线看 | 午夜欧美一区二区三区在线播放 | 国产精品久久 | 欧美午夜精品 | 91av视频在线观看 | 看av网| 亚洲日本中文字幕在线 | 欧美日韩高清 | 在线欧美一区 | 国产日韩欧美激情 | 国产91丝袜在线播放 | 亚洲国产激情 | 欧美精品第一区 | 国产区第一页 | 成人羞羞国产免费视频 | 免费1区2区3区| 中文字幕一区二区三区四区 | 精品欧美一区二区三区精品久久 | 亚洲在线高清 | 欧美日韩国产在线 | 久久成人在线视频 | 99精品在线 | 国产98色在线 | 日韩 | 精品国产一区二区三区久久久蜜月 | 人人草人人干 | 亚洲精品久久久久中文字幕欢迎你 | 一区二区伦理电影 | 天天干天天色 | 中文字幕第一页在线 | 亚洲电影免费 | 四虎永久影院 | 日韩精彩视频 | 又爽又黄axxx片免费观看 | 中文字幕 亚洲一区 | 国产成人精品一区二 | 精品亚洲一区二区 |