解讀數(shù)據(jù)挖掘與數(shù)據(jù)科學(xué)之間鮮為人知的區(qū)別
譯文【51CTO.com快譯】數(shù)據(jù)科學(xué)和數(shù)據(jù)挖掘在許多人看來很相似,因此必須了解它們之間的一些主要的區(qū)別。
如今,數(shù)據(jù)科學(xué)家通常被認(rèn)為是最有前途和最有利可圖的工作之一。美國勞工統(tǒng)計局預(yù)計,到2029年,美國對于數(shù)據(jù)科學(xué)家的市場需求將增加到37700人。
然而,盡管人們對數(shù)據(jù)科學(xué)的工作越來越感興趣,但并不知道如何從事這個職業(yè)。因此應(yīng)該了解數(shù)據(jù)科學(xué)的職業(yè)生涯,這其中包括了解不同數(shù)據(jù)流程之間的差異。
一些行業(yè)網(wǎng)站和大學(xué)正在提供有關(guān)數(shù)據(jù)科學(xué)的學(xué)習(xí)課程。然而,對于初學(xué)者來說,他們對于如何入門以及如何選擇有效的路徑并不總是很清楚。因為數(shù)據(jù)技術(shù)領(lǐng)域中一些相似的領(lǐng)域存在顯著的差異。因此需要了解數(shù)據(jù)挖掘與數(shù)據(jù)科學(xué)之間的重要區(qū)別。
什么是數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)是一門專注于數(shù)據(jù)分析并在此基礎(chǔ)上取得最佳解決方案的科學(xué)。在以往,這些問題是由數(shù)學(xué)和統(tǒng)計學(xué)專家來處理的。隨著人工智能的進(jìn)步得到了更廣泛的應(yīng)用,這使得將優(yōu)化和信息學(xué)納入分析方法成為可能。
實踐證明,這種新方法更加有效,因此人們必須精通這一技能才能成為數(shù)據(jù)科學(xué)家。例如,像Safetrading這樣的加密貨幣平臺都使用人工智能來檢查提供交易信號的服務(wù),從而提高了準(zhǔn)確性和速度。
數(shù)據(jù)挖掘與數(shù)據(jù)科學(xué)的定義
數(shù)據(jù)挖掘是一種基于大量信息分析的自動數(shù)據(jù)搜索。其目標(biāo)是識別趨勢和模式,這是傳統(tǒng)分析技術(shù)無法做到的。復(fù)雜的數(shù)學(xué)算法用于分割數(shù)據(jù)并估計后續(xù)事件的可能性。而每個數(shù)據(jù)科學(xué)家都需要了解數(shù)據(jù)挖掘。
在哪里使用數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)應(yīng)用在人們工作和生活的不同領(lǐng)域,可以應(yīng)對以下情況:
- 使用預(yù)測分析來防止欺詐
- 使用機(jī)器學(xué)習(xí)簡化營銷實踐
- 使用數(shù)據(jù)分析創(chuàng)建更有效的精算流程
在哪里使用數(shù)據(jù)挖掘?
如今,數(shù)據(jù)挖掘在商業(yè)、科技、醫(yī)藥、電信等行業(yè)領(lǐng)域得到了廣泛的應(yīng)用。
信用卡交易數(shù)據(jù)分析、住房和公共服務(wù)數(shù)據(jù)分析、基于客戶偏好的商店誠信卡計劃、國家安全(入侵檢測)、人類基因組研究只是數(shù)據(jù)挖掘應(yīng)用的一些用例。
成為數(shù)據(jù)科學(xué)家的六個步驟
正如人們所看到的,這兩個術(shù)語對于不懂它們的人來說可能是相似的。首先了解的就是這兩種技術(shù)應(yīng)用的領(lǐng)域非常不同。
盡管如此,很多人希望走上一條正確的途徑成為數(shù)據(jù)科學(xué)家。以下是行業(yè)人士成為數(shù)據(jù)科學(xué)家的六個步驟:
1.學(xué)習(xí)數(shù)據(jù)科學(xué)的基礎(chǔ)知識
為了掌握數(shù)據(jù)科學(xué)的基礎(chǔ)知識,希望成為數(shù)據(jù)分析工程師的初學(xué)者需要學(xué)習(xí)統(tǒng)計學(xué)、概率論、線性代數(shù)等課程,這對于能夠快速有效地處理數(shù)據(jù)排列非常重要。
2.程序設(shè)計
精通程序設(shè)計將是一大優(yōu)勢。初學(xué)者需要學(xué)習(xí)編程語言,這樣就可以充分利用編程的能力。
在選擇編程語言時,可以考慮學(xué)習(xí)Python。它非常適合初學(xué)者,其語法相對簡單,功能豐富,并且在勞動力市場中需求旺盛。
3.機(jī)器學(xué)習(xí)
采用機(jī)器學(xué)習(xí)技術(shù),不再需要編寫詳細(xì)的指令來完成某些任務(wù)。因此,機(jī)器學(xué)習(xí)對于幾乎所有領(lǐng)域都非常重要,但最重要的是,在數(shù)據(jù)科學(xué)領(lǐng)域,采用機(jī)器學(xué)習(xí)將非常有效。
4.數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)可視化
數(shù)據(jù)挖掘是一個重要的研究過程。它包括根據(jù)不同的選項對隱藏的數(shù)據(jù)模型進(jìn)行分析,將這些數(shù)據(jù)模型轉(zhuǎn)換為有用的信息,這些信息在數(shù)據(jù)倉庫中收集和生成,以促進(jìn)旨在降低成本并增加收入的業(yè)務(wù)決策。
5.實踐經(jīng)驗
學(xué)習(xí)理論知識很重要,但重要的是豐富的實踐經(jīng)驗。初學(xué)者可以采用數(shù)據(jù)科學(xué)競賽平臺Kaggle發(fā)布的許多開放數(shù)據(jù)集。另外,初學(xué)者可以借鑒其他貢獻(xiàn)者發(fā)布的腳本,并從成功的經(jīng)驗中學(xué)習(xí)。
6.資格確認(rèn)
初學(xué)者在學(xué)完基礎(chǔ)知識并進(jìn)行實踐之后,需要分析數(shù)據(jù)并嘗試參加比賽和認(rèn)證考試,然后開始求職。具有認(rèn)證資格將成為他們求職的一個優(yōu)勢。
數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘:總結(jié)性思考
正如人們所見,數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘之間有著密切的聯(lián)系,尤其是在數(shù)據(jù)科學(xué)領(lǐng)域。學(xué)習(xí)者可以在網(wǎng)絡(luò)免費獲得在線課程和書籍,并不斷練習(xí)和參加比賽。而在掌握專業(yè)知識和開展實踐之后,他們將成為使用數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)科學(xué)家。
理解數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘的區(qū)別是非常重要的
數(shù)據(jù)技術(shù)領(lǐng)域有很多方面。如果考慮從事這方面的工作,則應(yīng)了解數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘之間的區(qū)別。
原文標(biāo)題:Deciphering The Seldom Discussed Differences Between Data Mining and Data Science,作者:Ryan Kh
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】