成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)科學常見錯誤:開始學習之前,就把它們克服了吧

新聞
攻克數(shù)據(jù)科學這一領(lǐng)域并不容易,你可能會遇到千奇百怪的問題。即使有許多知名大學的優(yōu)秀教授開設(shè)了令人驚嘆的課程,你仍然會犯錯誤。現(xiàn)在,我整理了一些人們在開始在線學習數(shù)據(jù)科學之前就必須要了解的要點。

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。

我們生活在充滿數(shù)據(jù)的世界里,人類每天制造超過2.5兆字節(jié)的數(shù)據(jù),僅過去兩年產(chǎn)生的數(shù)據(jù)就占全世界數(shù)據(jù)的90%,基于此,數(shù)據(jù)相關(guān)的領(lǐng)域也應運而生。這樣的大趨勢,引發(fā)了許多人對于學習數(shù)據(jù)科學的熱情。

但攻克這一領(lǐng)域并不容易,你可能會遇到千奇百怪的問題。即使有許多知名大學的優(yōu)秀教授開設(shè)了令人驚嘆的課程,你仍然會犯錯誤。剛開始的時候,我對很多事情一無所知,也走過不少彎路。現(xiàn)在,我整理了一些人們在開始在線學習數(shù)據(jù)科學之前就必須要了解的要點。

[[337892]]

在線課程不會傳授領(lǐng)域知識

解決任何問題之前,你都需要有一定的領(lǐng)域知識。恰當?shù)念I(lǐng)域知識將幫助你更好地理解數(shù)據(jù)集的特性,并幫助你構(gòu)建分析數(shù)據(jù)集的方法,從而從數(shù)據(jù)集中得出結(jié)論。大多數(shù)年輕人忽視了這一點。

領(lǐng)域知識是最容易被忽視的技能,但對初學者來說卻是至關(guān)重要的。人們應該意識到,他們有必要花時間了解該領(lǐng)域和他們想解決的問題。領(lǐng)域知識是解決問題的基礎(chǔ)。

了解數(shù)據(jù)集

在忙著尋找丟失的值或開始清理數(shù)據(jù)之前,請正確查看數(shù)據(jù)集并嘗試理解它。可以使用pandas庫中的describe()方法來提取關(guān)于數(shù)據(jù)的更多信息,比如平均值、標準差、四分位數(shù)。從數(shù)據(jù)集中取任何特定的例子,并使用特性來理解它。

不要急于創(chuàng)建機器學習模型

許多初學者在預處理數(shù)據(jù)之前直接應用ML算法。所有人都可以寫兩到三行代碼來訓練算法并預測結(jié)果,而數(shù)據(jù)科學家則會先花費80%的時間準備和管理數(shù)據(jù),尋找離群值和相關(guān)性,以及填充缺失的值并了解哪個特性影響最大。

例如,如果你想解決一個分類問題,那么就要檢查類的不平衡。通俗來說,如果類不包含相同數(shù)量的示例,那么數(shù)據(jù)集就是不平衡。再如,在一個二進制分類任務中,類A占數(shù)據(jù)總數(shù)的99%,類B占數(shù)據(jù)總數(shù)的1%。數(shù)據(jù)不平衡可能導致所謂的過度擬合。

花時間準備和管理數(shù)據(jù)及進行預處理是非常有必要的。

[[337893]]

圖源:unsplash

不要自欺欺人

做作業(yè)或測驗時,不要抄襲網(wǎng)絡(luò)資源。不必急于完成任務,慢慢來,作業(yè)和測驗只是手段,學會如何解決問題才是目的,你不能不僅僅是為了拿到證書。我學到的大部分東西都是在遇到問題時學到的。

在完成分配任務之前,理解好已編寫的代碼

對于許多初學者來說,只回顧近一周所學并將其應用到數(shù)據(jù)中是很常見的事情。例如,如果一個學生正在學習支持向量機(分類算法之一)。在作業(yè)中,如果學生必須訓練和測試模型,大多數(shù)學生只會完成這個任務,他們不會注意到之前編寫的關(guān)于數(shù)據(jù)預處理的代碼。

編碼和數(shù)學的背景知識非常有益

有人認為學習一些數(shù)據(jù)科學課程不需要編程,我不同意這一點,編程方面的基本知識有助于更好地學習。

也許之后會教Python / R,但如果你正在學習一門課程,建議你在HackerRank、HackerEarth等平臺解決問題,以在學習一個特定的語言中獲得更多的經(jīng)驗,這樣以后如果你使用類似matplotlib、NumPy這樣的庫,就可以隨意編寫代碼。

不懂基礎(chǔ)數(shù)學也不用擔心,YouTube上有很好的學習資源。如果你想學習微積分,推薦學習3Blue1Brown的微積分、線性代數(shù)和統(tǒng)計學的Stat Quest。對于那些希望從數(shù)學開始學習數(shù)據(jù)科學的初學者來說,這都是不錯的選擇。

[[337894]]

圖源:unsplash

隨意提問,不要害羞

論壇是問問題的好平臺,大膽提出你的疑問,不要有絲毫疑慮。在這里,沒有人會因為問問題而感到尷尬。正如愛因斯坦所說:不停質(zhì)疑至關(guān)重要。好奇心的存在有它自己的道理。

如果不理解算法,那么就從頭開始實現(xiàn)它

如果你在理解某個算法方面有問題,那么最好的方法是自己編寫這個算法。在這個過程中,你會了解它并理解scikit-learn這類的庫的運作方式。

不要滿足于ML算法的初始結(jié)果

你可以通過調(diào)整各種算法的值來改進模型。不要滿足于模型的初始結(jié)果,要經(jīng)常使用超參數(shù)調(diào)優(yōu)來優(yōu)化結(jié)果。你可以改變許多算法的超參數(shù)值,比如K最近鄰算法可以改變可能改善結(jié)果的鄰值的數(shù)量。

完成在線課程不是終點,而是起點。在線課程將幫助你建立牢固的基礎(chǔ),但你必須不斷學習,不斷尋找各種數(shù)據(jù)集并實踐,實踐是做好所有工作的關(guān)鍵。你要繼續(xù)瀏覽各種博客文章、筆記、視頻、研究論文來了解更多知識,永遠不要把自己限制在什么事情上。

[[337895]]

圖源:unsplash

作為一名數(shù)據(jù)科學家,你需要不斷學習新技術(shù),追尋永無止境。

 

責任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2020-11-30 15:11:51

大數(shù)據(jù)

2022-02-15 14:09:51

Java編程線程

2017-09-12 10:20:00

大數(shù)據(jù)數(shù)據(jù)可視化錯誤及方法

2024-03-25 14:17:52

數(shù)據(jù)可視化數(shù)據(jù)驅(qū)動

2021-04-16 14:05:32

云計算

2018-06-11 08:58:50

數(shù)據(jù)科學Web設(shè)計日志記錄

2020-08-03 10:13:29

CIO項目管理技術(shù)

2022-12-01 08:00:42

CICD部署

2020-04-19 17:23:55

混合云云計算

2020-09-01 15:57:12

云安全云遷移云計算

2017-08-16 08:37:05

云遷移IP地址

2021-01-12 11:31:09

數(shù)據(jù)科學數(shù)據(jù)大數(shù)據(jù)

2017-11-20 08:56:54

克服容器誤區(qū)

2020-07-17 15:57:24

物聯(lián)網(wǎng)IoT網(wǎng)絡(luò)

2017-11-20 14:18:32

2021-02-20 21:29:40

GitHub代碼開發(fā)者

2009-09-27 15:20:19

數(shù)據(jù)中心管理錯誤

2023-01-10 11:29:34

2024-08-16 08:15:02

2017-09-11 15:46:36

數(shù)據(jù)科學語言Java
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美性受xxx | 日日人人| 午夜精品一区二区三区在线视 | 精品视频成人 | 北条麻妃一区二区三区在线视频 | 精品国产视频在线观看 | 91福利在线导航 | av三级| 成人免费在线观看 | 懂色中文一区二区在线播放 | 国产亚洲精品久久久优势 | 欧美视频在线播放 | 免费看国产片在线观看 | 国产精品免费一区二区三区四区 | 一区二区三区在线免费观看 | 国产日韩欧美精品一区二区三区 | 91在线| 99在线播放 | 欧美一级片黄色 | 不卡av在线| 一级大黄色片 | 成人二区三区 | 欧美一级免费黄色片 | 一本色道久久综合亚洲精品高清 | 精品久久久久一区 | 一区 | 久久免费看 | 日本免费小视频 | 99久热在线精品视频观看 | 91色啪| 中文字幕亚洲精品在线观看 | 一区精品在线观看 | 国产精品视频999 | 奇米超碰 | 一区二区在线不卡 | 欧美在线二区 | 日本视频中文字幕 | 久久久久国产一区二区三区 | 精品国产不卡一区二区三区 | 国产精品久久午夜夜伦鲁鲁 | www国产亚洲精品久久网站 |