成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

作為數據科學家應該知道的11件事

大數據
在我們舉辦的聚會期間,我們見到了很多朋友。從數據科學領域完全的菜鳥到專家,在同一個屋檐下,每個人都發出自己的疑惑。

數據科學

背景

在我們舉辦的聚會期間,我們見到了很多朋友。從數據科學領域完全的菜鳥到專家,在同一個屋檐下,每個人都發出自己的疑惑。然而,當我們面對這群朋友——很大比例的這部分人(包括一些專家),一件事情顯得尤為突出,他們沒有自己的機器,也沒有將自己的身份調整過來。他們中的很多人從未抽出時間開啟他們作為數據科學家的旅程。結果他們只是得到了一個能夠涉及多個產業資源的機會。

沒有人告訴他們該關注哪些博客,該訂閱哪些時事新聞,去哪里閱讀行業最新的訊息。他們從不調整他們的機器,也沒有必要的硬件或者軟件。這導致了極低的生產率,在某些情況下甚至遭遇挫折,在這樣的時候他們應該喜歡上這樣的經歷。

還是沒有聯想起什么?試想下在瀏覽一個網頁的時候,載入就耗費了10秒中。在這個時候你很可能會很不耐煩,然后打開一個新站點的網頁避免浪費時間。同樣的事情也會發生在數據科學身上。代碼運行的時間越長,從工作中避開的機會也越多。

這就是我們怎樣發現行業里的人們不曾說過的問題,因此我們想給這些朋友準備成為數據科學家的一些指引。

誰適合本指引?

如上所述,這個指引是寫給那些還沒調好機器的數據科學行業的工作者。我想這更多的是給新手們寫的,但是我同樣也希望資深工作者也能從中受益。

讓我們從設置機器開始

1.硬件-機器的選擇

首先應該確認的是你有適合數據科學的硬件配置。如果你的硬件已經足夠好的話,那也沒什么可以做的了。既然筆記本電腦已經成為現在的主流,以下是我對筆記本的配置建議。如果你用臺式機或者iMac,你可以有更好的硬件配置。

當然最終的選擇將由你可以付出多少錢來決定,我建議一臺四核心,英特爾i7處理器的機子就可以了。確保你選的機子是四核處理器而不是雙核的。在現在,選用好的四核芯片還是比較困難的。你可以在cpuboss這類網站上查看各種芯片的benchmark性能表現,再根據自己的預算來選擇。

我們總是建議你配置盡量大的內存,很多工具在計算的時候都會消耗大量內存,你也不想讓內存溢出吧。

如果你的預算充裕,將機械硬盤升級為固態硬盤可以為數據的讀寫提升很大的性能。對那些真想深入學習機器學習的人來說,建議配置一塊英偉達的GPU,這樣的話對于那些需要強烈計算的時候可以用上CUDA技術。

這里有一些比較好的建議配置:

  • 15吋的Mac Book Pro.
  • 3年前我購置了一臺聯想Z510,i7(3632QM)處理器,16GB內存,英偉達的GPU的電腦,我覺得還不錯。性能方面,它仍然是現在市場上一臺比較不錯的設備。
  • 如果你在美國,需要更好的設備,可以試下Malibal 9000,它很漂亮,只是有點重。

一些其他的說明:

  • 6代的英特爾Skylake處理器最近才發布,基于這款處理器的設備才剛剛興起。我相信他們將再次掀起一場革命。你可以在聯想Thinkpad P50和P70的配置上得到檢驗。 所以,如果你現在有一臺中等配置的機器,我建議你再等2-3個月購置一臺基于6代處理器的設備。
  • 如果現在你不得不買一臺設備的話,四代四核i7處理器是一個不錯的選擇。在寫這篇文章的時候,5代的處理器還沒有什么好的選擇。

人們可能會說沒有必要在怎么高配的設備上做投資。你可能在一些中等機器的云上更好的工作。我個人很喜歡個人電腦提供的方便的可訪問性,我可以在沒有網絡的情況下隨時隨地的工作。

2.操作系統

一旦你已經選定了你的機器,下一步重要的選擇就是操作系統了。

  • 如果你有一臺mac機,那么你的操作系統就已經定了。一些軟件比如QlikView在MAC下沒有兼容版本,你可以在虛擬機里運行它們。
  • 如果你用的是PC電腦,我建議安裝雙系統。Linux在高級計算上有更好的表現,Windows系統對于像微軟Office等一起其他的軟件只能在Windows系統運行。所以兩個系統最好都要有。
  • 另一個選擇是我看到很多人在Windows機上跑一臺Linux虛擬機,這樣的話在內存和性能上將受到一些限制。
  • 也可以在Linux上使用微軟的Office 360.我本人沒怎么干過,所以我就不評論了,但是看起來也是個選擇。再次重申,可能有很多軟件沒法再Linux上運行。

一旦選定了操作系統確保你的操作系統發揮了最大的性能。比如,在Windows上,你可以關掉一些透明等界面的效果。去到高級選項卡->性能->設置,將視覺效果禁用,取消一些沒必要自啟動的程序,然后將電源調成性能模式。

3.常用軟件

除了一些數據分析工具,這里有一些你需要用到的軟件。

  • 微軟Office比如Excel,用來展現結果,編寫文檔等。
  • FileZilla用FTP傳送文件。
  • Git & GitHub用來控制版本.
  • VMWare / Oracle Virtual Box / Vagrant用來運行虛擬機。
  • Cygwin / Putty(for windows)
  • 我使用Evernote 來整理筆記.如果在Linux里,我使用瀏覽器。
  • Terminator (for Linux)在單個視圖下運行多個終端的工具,很不錯的。
  • Sublime Text用來編寫代碼.你需要安裝額外的你所使用的語言插件。

4.分析數據的軟件

這部分將非常依賴于你所選用的數據挖掘的工具。如果你仍然選用主要的工具,看下這里的比較 – SAS vs. R vs. Python.如果你 已經有一個選用的工具,選一個適合你的:

  • SAS– 基于SAS的企業級指引、企業級數據挖掘模塊將依賴于你的許可證.它也提供了TextMiner / JMP和一些行業應用的模塊。
  • R– R語言提供了一些關鍵的庫.RStudio是一個不錯的開發環境。
  • Python– iPython notebooks, Dato (Graphlab), vowpal-wabbit, import.io 是另外很有意思的相互獨立的科學庫.

其他可供選擇的有MATLAB / Octave / RapidMiner.

5.數據可視化軟件

除了以上提到的軟件,有一個專門用來做數據可視化的工具是很重要的。他們通常會在每一個項目的末尾,當你將數據呈現在客戶面前時顯現出重要性。有很多可供選擇的軟件。關于這些軟件的更多信息,請參考他們自己的文檔。我推薦 QlikView – 它很易用,有一個個人免費版本可以下載,對于大的數據量它真的可以很好的處理.Tableau 是另外一個很不錯的選擇,使用起來同樣非常直觀,但是據我的經驗,對于大數據量的處理并不是很出色。

如果你了解JavaScript,你可以使用基于它的庫比如D3.js

6.數據庫/文件存儲

很多時候,當數據集很龐大或者你給你的用戶編譯程序時,你將需要使用數據庫 –SQL 是最常使用的.你也可以使用MySQL或者PostgreSQL.SQLite捆綁在Python的包里時對于一些小的應用是非常高效的。如果你經常跟大數據量打交道,建立一個Hadoop集群是不可避免的。如果你要處理實時的數據流,你也將需要用到Spark.

除了這些數據庫,你需要了解下NoSQL,以防日后用到它.我建議使用 MongoDB 和 Neo4j .

其他資源

6.云服務

假如你要處理400GB的數據量,你要怎么辦呢?即使我上面建議的機器配置用R語言來處理,也無法一次將他們裝載到內存里。對于這樣的場景,有一個云賬號是很方便的。你可以使用兩家云服務提供商——亞馬遜網絡服務(人們常說的AWS)或者微軟公司的Azure.他們都提供了高度伸縮性的解決方案。Azure平臺界面可能會更加友好些,但是亞馬遜才是云服務的霸主。你可以在兩個公司都申請個賬號體驗一下。

 

7.行業博客和時事新聞

我假設你已經訂閱了Analytics Vidhya的文章。如果沒有,請到這里 訂閱.除了Analytics Vidhya, 你也可以關注 KDNuggets 和 DataScienceCentral.

在時事新聞方面, 我推薦O’Reilly, DataScienceWeekly和 Data Elixir 的時訊.

8.移動app

我經常使用手機閱讀很多內容。不論我是在乘坐地鐵或者只有5分鐘瀏覽最新的出版物,我都使用移動端。我用Prismatic和Flipboard這些聚合軟件去發現新的東西。兩者都給我提供了行業最新的發展動態。

另外,我也使用Termux,它是一個功能完善的Linux終端,以防我需要ssh連接服務器的時候使用。我也偶爾使用它在Python腳本里編寫原型程序。

9.聚會

你可以找到很多聚會在你周圍.它給需要相互交流的人們提供了很好的機會。Analytics Vidhya在印度很多城市主辦了編程馬拉松活動。DataKind也有很多聚會.

10.可用來實踐的數據集

對于新手, 你可以看看這在Analytics Vidhya上的討論 .除了這個, KDNuggets維護了一些開源的數據集。 UCI也提供了一些可用于機器學習的數據.

你也可以訪問data.gov來尋找一些開源的數據。

11.社區和社交媒體

如果你還沒有完成, 注冊我們的討論門戶.你不能只是跟其他的數據科學家在社區上交流,也可以參加各種我們主辦的編程馬拉松.除此之外, 你可以看看 Kaggle競賽和DataTau這是黑客行業的一些動態.

另外,你也可以在Twitter, LinkedIn, GitHub, Facebook和Reddit找到數據科學的社區.你同樣可以訂閱YouTube的頻道。

責任編輯:李英杰 來源: 36大數據
相關推薦

2017-10-11 18:14:13

數據收集大數據系統建模

2020-10-25 20:00:18

數據科學數據科學家

2017-08-04 15:53:10

大數據真偽數據科學家

2019-07-03 15:21:47

數據科學統計數據數據結構

2020-06-16 09:13:27

數據科學數據大數據

2024-01-09 14:57:22

2014-11-14 17:39:23

云計算

2021-12-19 22:31:01

Windows 11Windows微軟

2019-07-11 12:59:27

數據科學家概率分布統計

2015-09-18 08:47:41

新手程序員

2021-05-19 18:23:40

物聯網IOT物聯網技術

2010-09-02 18:56:09

NoSQL數據庫DBA

2012-02-07 13:29:35

2019-09-18 21:00:51

Python數據科學多線程

2017-04-12 09:34:30

數據科學家統計學家好習慣

2018-11-01 15:50:24

MongoDB服務器數據庫

2018-08-30 06:00:04

2013-01-06 14:11:34

手機版Ubuntu系統

2015-10-28 18:04:51

2022-04-22 14:28:18

加密推特比特幣加密貨幣
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: h视频网站在线观看 | 午夜精品91 | 麻豆91精品91久久久 | 久久伊人一区二区 | 成人免费视频网站在线看 | 日本精品裸体写真集在线观看 | 国产亚洲欧美另类一区二区三区 | 久久久久国产一区二区 | 国产免费一区二区三区免费视频 | 国产美女自拍视频 | 欧美一区二区小视频 | 91资源在线 | 日韩中文字幕一区二区 | 日韩在线一区二区三区 | 日韩欧美在线不卡 | 免费在线h视频 | 亚洲精品免费在线 | 午夜视频一区 | 黄色网址在线免费观看 | 精品国产乱码久久久久久丨区2区 | 国产美女久久久 | 国产色网 | 99热在线免费 | 黄色一级大片在线免费看产 | 久草资源在线视频 | 在线成人免费视频 | 懂色中文一区二区三区在线视频 | 日韩免费一区 | 国产一在线观看 | 日韩久久综合 | 亚洲一区二区三区在线播放 | 国产午夜精品久久久久 | 精品久久久久久红码专区 | 精品日韩一区二区 | 国产视频一区二区三区四区五区 | 日日摸夜夜添夜夜添特色大片 | 青青久在线视频 | 91精品久久久久久久久中文字幕 | 亚洲国产日韩欧美 | 亚洲午夜三级 | 久久久91精品国产一区二区三区 |