成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

SQL是必學(xué)的嗎?數(shù)據(jù)科學(xué)家的技能樹(shù)該怎么點(diǎn)?

大數(shù)據(jù)
作為一名數(shù)據(jù)科學(xué)家,你使用什么方法?你還有其它方法嗎?數(shù)據(jù)科學(xué)家必須要會(huì)使用SQL嗎?本文將討論SQL在數(shù)據(jù)科學(xué)中的作用,以及結(jié)構(gòu)化查詢語(yǔ)言(SQL)的替代方法。

本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)。

一間屋子10個(gè)人,可能其中5位數(shù)據(jù)科學(xué)家都表示需要結(jié)構(gòu)化查詢語(yǔ)言(SQL)才能工作,另一半人則表示還有其他方法可以處理數(shù)據(jù)。

作為一名數(shù)據(jù)科學(xué)家,你使用什么方法?你還有其它方法嗎?數(shù)據(jù)科學(xué)家必須要會(huì)使用SQL嗎?本文將討論SQL在數(shù)據(jù)科學(xué)中的作用,以及結(jié)構(gòu)化查詢語(yǔ)言(SQL)的替代方法。

[[355527]]

SQL

是否需要了解SQL具體取決于個(gè)人所屬公司和數(shù)據(jù)科學(xué)團(tuán)隊(duì)。有些團(tuán)隊(duì)有數(shù)位數(shù)據(jù)工程師和數(shù)據(jù)分析師以及機(jī)器學(xué)習(xí)工程師,而有些團(tuán)隊(duì)則只有一位數(shù)據(jù)科學(xué)家。所以數(shù)據(jù)科學(xué)家是否需要了解SQL,你心中自有答案。

但是,討論一下是否需要了解SOL的原因,以及不需要SOL的時(shí)機(jī)是頗為有趣且十分重要,討論這個(gè)問(wèn)題也有助于即將入職的數(shù)據(jù)科學(xué)家了解工作期望。以下是我使用SQL的原因:

  • 使用SQL查詢表格以獲得有用的數(shù)據(jù)集
  • 保持自主感(盡管也需要幫助)
  • 在現(xiàn)有的SQL查詢中隨時(shí)發(fā)現(xiàn)和創(chuàng)建新功能

盡管數(shù)據(jù)科學(xué)可以看作是只專注于Python和R以及復(fù)雜機(jī)器學(xué)習(xí)算法的工作,但如果不充分利用SQL的優(yōu)勢(shì),一個(gè)團(tuán)隊(duì)可能很難執(zhí)行數(shù)據(jù)科學(xué)運(yùn)算進(jìn)程。不過(guò),有時(shí)SQL并不是必需的,這取決于個(gè)人在數(shù)據(jù)科學(xué)領(lǐng)域的具體角色。

如果能從數(shù)據(jù)工程師或數(shù)據(jù)分析師那里獲得一些幫助,便可以參考其他替代方法。此外,當(dāng)SQL查詢功能完全不符合專業(yè)時(shí)也不需要SQL,因?yàn)榇藭r(shí)專注點(diǎn)在于數(shù)據(jù)科學(xué)模型開(kāi)發(fā),類似于在已獲取的數(shù)據(jù)上相互測(cè)試各種機(jī)器學(xué)習(xí)算法。

替代方法

從數(shù)據(jù)分析師或數(shù)據(jù)工程師處獲取數(shù)據(jù)集后,對(duì)數(shù)據(jù)集的下一步改進(jìn)就是創(chuàng)建新功能要素,而不只是直接從數(shù)據(jù)表中獲取字段。例如,如果數(shù)據(jù)集中有10個(gè)字段,則可以開(kāi)發(fā)幾個(gè)全新指標(biāo)作為字段,而不是通過(guò)計(jì)算第1列和第2列來(lái)直接創(chuàng)建新的第11列。除了SQL以外,另一個(gè)比較容易進(jìn)行此計(jì)算的工具是pandas。充分理由顯示,數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家已廣泛使用該庫(kù)。

使用pandas,能夠快速執(zhí)行復(fù)雜計(jì)算,并且只需一行代碼。有時(shí)很難使用SQL計(jì)算數(shù)據(jù),因?yàn)樗谝曈X(jué)上呈多行布局(僅為個(gè)人看法)。

以下是一些常用的pandas 數(shù)據(jù)框操作,旨在方便化數(shù)據(jù)集特征工程運(yùn)算。

  1. * groupby* items* loc* iloc* iteritems*keys* iterrows* query (this operation is quite similar to SQL quering, Ihighly recommend)* aggregate* corr* mean, median, min, and max* quantile*rank* sum* std* var* append* merge* join* sort_values* isnull* notna*between_time 

大量操作都可以應(yīng)用到pandas 數(shù)據(jù)框架中。個(gè)人最喜歡的操作:

  • 分組(Groupby)——對(duì)數(shù)據(jù)進(jìn)行分組,并對(duì)所述組執(zhí)行進(jìn)一步的操作。
  • 查詢(query)——一種類似SQL的查詢方式,但在個(gè)人的數(shù)據(jù)框架中。

[[355528]]

圖源:unsplash

個(gè)人認(rèn)為,計(jì)算全新的字段或指標(biāo)更容易,這些字段或指標(biāo)最終將用于個(gè)人pandas數(shù)據(jù)科學(xué)模型。不過(guò),有人偏愛(ài)只在SQL中執(zhí)行計(jì)算。對(duì)我來(lái)說(shuō),使用SQL的好處是我不必一次性添加所有新特性(查詢時(shí)間過(guò)長(zhǎng)),這樣當(dāng)我想添加一個(gè)新特性時(shí),操作就非常簡(jiǎn)單有效。

數(shù)據(jù)科學(xué)家需要了解SQL嗎?答案不是絕對(duì)的。這取決于公司、團(tuán)隊(duì),有時(shí)還取決于個(gè)人偏好。

使用SQL查詢,可以使用戶受益匪淺,所以如果你還不了解SQL,可以學(xué)習(xí)其使用方法。如果你偏愛(ài)類似pandas的替代方法,你可能是龐大數(shù)據(jù)科學(xué)團(tuán)隊(duì)中的一員。

一些數(shù)據(jù)科學(xué)家同時(shí)使用SQL和Python來(lái)為模型創(chuàng)建最終的數(shù)據(jù)集。pandas最獨(dú)特的地方在于它有一個(gè)類似于SQL的查詢操作,用戶可以在pandas數(shù)據(jù)框中綜合使用SQL和Python。所以,想好你自己的解決方案了嗎?

 

責(zé)任編輯:趙寧寧 來(lái)源: 今日頭條
相關(guān)推薦

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2019-07-05 10:29:17

大數(shù)據(jù)數(shù)據(jù)科學(xué)家

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2019-11-29 18:03:27

數(shù)學(xué)R語(yǔ)言算法

2019-03-25 21:18:41

數(shù)據(jù)科學(xué)家大數(shù)據(jù)技能

2018-05-03 09:11:51

數(shù)據(jù)科學(xué)家職業(yè)數(shù)據(jù)科學(xué)

2015-06-11 10:27:29

數(shù)據(jù)科學(xué)家

2021-10-08 13:45:23

大數(shù)據(jù)數(shù)據(jù)科學(xué)家貨幣

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2012-12-27 09:50:36

Facebook

2012-12-27 09:52:23

數(shù)據(jù)科學(xué)家大數(shù)據(jù)

2015-08-25 13:20:29

數(shù)據(jù)科學(xué)

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2012-12-06 15:36:55

CIO

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2018-05-22 09:07:54

數(shù)據(jù)科學(xué)語(yǔ)言職位

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2024-01-30 17:46:24

2018-03-12 12:44:59

數(shù)據(jù)科學(xué)家人工智能數(shù)據(jù)科學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩第一区 | 91大神在线资源观看无广告 | 亚洲网站在线观看 | 在线激情视频 | 国产精品福利在线观看 | 亚洲一卡二卡 | 国产精品久久久久久妇女6080 | 日韩欧美在线不卡 | www.日韩 | 亚洲精品自在在线观看 | 婷婷五月色综合 | 久久综合一区 | 精品久久久久国产 | 91久久久久久久久久久久久 | www.久久.com | 成人免费在线视频 | 久久久久免费精品国产 | 欧美激情一区二区 | 美女久久| 一级黄色影片在线观看 | 久久久一二三区 | 亚洲中国字幕 | 久久99国产精品 | 久久久成人精品 | 18性欧美 | 羞羞色在线观看 | 国产国拍亚洲精品av | 精品一区二区视频 | 欧美精品一区二区三区四区 | 色综合久久久 | 免费观看一级视频 | 国产视频久久久 | www.亚洲精品 | 国产精品一区二区欧美黑人喷潮水 | 天天操天天射综合网 | 色综合视频在线 | 成人精品啪啪欧美成 | 福利国产 | 免费在线观看一区二区三区 | 欧美日韩国产在线观看 | 天天看天天操 |