寫作比寫代碼難多了?給數(shù)據(jù)科學(xué)家的寫作指南
大數(shù)據(jù)文摘出品
編譯:羅然、瓜瓜、蔣寶尚
寫作是每個(gè)人都想多做一些的事情,但是常常不知道從哪里開始。
數(shù)據(jù)科學(xué)家有好的寫作技巧能夠提高溝通效率。但我們常常會(huì)因?yàn)閷懽髂芰Σ蛔愀械嚼_。
下面一套體系可以突破這些障礙,可以幫你掌握一些數(shù)據(jù)科學(xué)寫作的通用準(zhǔn)則。雖然寫作沒有秘訣,但是有一些實(shí)用性的小技巧可以幫助我們更好地養(yǎng)成高效寫作的習(xí)慣:
- 以99%為目標(biāo):一項(xiàng)不***但是完成了的項(xiàng)目,比一項(xiàng)沒有完成的***項(xiàng)目要好。
- 堅(jiān)持很有幫助:你寫得越多,事情就越容易。
- 不要擔(dān)心資質(zhì):在數(shù)據(jù)科學(xué)中,沒有門檻可以阻攔你做出貢獻(xiàn)或者求知。
- ***的工具就是完成工作:不要過度優(yōu)化你的寫作軟件,博客平臺(tái),或者是開發(fā)環(huán)境。
- 更廣泛更深度地閱讀:借用,融合,提高別人的想法。
***是一種高估:以90%為目標(biāo)
我克服過***的心理障礙,和我從別人那里聽到過最多的困難就是“我的寫作、數(shù)據(jù)科學(xué)能力不夠好”。這可能是妄自菲薄:當(dāng)你思考一個(gè)項(xiàng)目的時(shí)候,人們往往會(huì)覺得自己沒有辦法達(dá)到***,所以他們連頭都不會(huì)開。換句話說,他們讓***變成了優(yōu)秀的敵人。
錯(cuò)誤的觀點(diǎn)在于:只有***無(wú)瑕的項(xiàng)目才是值得被分享的。然而,一個(gè)完成了但有瑕疵的項(xiàng)目遠(yuǎn)比永遠(yuǎn)完不成的***項(xiàng)目要好。
雖然在很多領(lǐng)域大家都期待一個(gè)***的表現(xiàn),但撰寫博文跟別的事情不一樣。
寫作的時(shí)候,為了文章更加可讀多做幾次修改,但是不要追求完全沒有錯(cuò)誤。在實(shí)踐中,90%為目標(biāo),超過了就是額外的成就。發(fā)表一篇有些錯(cuò)誤的文章總比完全不發(fā)表要好。另外如果你擔(dān)心語(yǔ)法/文風(fēng),我推薦免費(fèi)軟件Grammarly。
Grammarly:https://www.grammarly.com/
在某些時(shí)候,工作的回報(bào)會(huì)低于你投入的時(shí)間。知道如何止損是最重要的技能。不然讓***成為你半途而廢的借口,不要為了取得不可能的100%而感到壓力。如果你已經(jīng)犯了一些錯(cuò)誤了,那么你將有機(jī)會(huì)通過發(fā)表并獲得反饋來進(jìn)一步學(xué)習(xí)。
嘗試去發(fā)表不***的工作,然后積極地回應(yīng)建設(shè)性的意見,這樣你下次就不會(huì)再犯同樣的錯(cuò)誤。
只做一次不會(huì)讓你變得更好:堅(jiān)持很重要
當(dāng)10000小時(shí)工作法被證偽了以后(事實(shí)證明專注于練習(xí),所謂的“刻意練習(xí)”,沒有你練習(xí)的數(shù)量來得重要),人們開始強(qiáng)調(diào)積累更多的經(jīng)驗(yàn)。寫作不是需要特殊技能的工作,但是需要重復(fù)練習(xí)來取得進(jìn)步。
寫作不是一件簡(jiǎn)單的事情,但是隨著你練習(xí)得越來越多,會(huì)變得越來越簡(jiǎn)單。而且,寫作是一個(gè)正反饋的循環(huán):你寫得越多,技能就會(huì)更好,從而鼓勵(lì)你寫更多。
只要開始了,你就過了最難的那一關(guān)。
如果你堅(jiān)持寫作,你會(huì)改變自己的意識(shí)形態(tài),從“我需要從其他事情中找時(shí)間來寫作”變成了“現(xiàn)在我完成了項(xiàng)目,是時(shí)候像往常一樣寫作了。”對(duì)你所做的每個(gè)項(xiàng)目進(jìn)行記錄,強(qiáng)化了一個(gè)概念:寫作不是一個(gè)多余的事務(wù),而是數(shù)據(jù)科學(xué)的核心。
寫作通常不是為了分享文章。當(dāng)你進(jìn)行一個(gè)分析時(shí),嘗試在你的Jupyter Notebook中增加更多文本來解釋你的思路。這是我開始寫博客的方式:我開始從頭到尾標(biāo)注我的筆記本,然后意識(shí)只需要再增加一點(diǎn)工作量就可以把它變成文章。再者就是,當(dāng)你開始為你的代碼增加更多解釋的時(shí)候,以后的你自己或是閱讀你作品的同事會(huì)感謝現(xiàn)在的你。
寫最開始的幾篇文章像是額外的任務(wù),但是習(xí)慣了以后這件事就不多余了,當(dāng)它變成我工作中被接受的一部分以后就變得很容易了。習(xí)慣的力量很強(qiáng)大,寫作也跟其他習(xí)慣一樣。
頭銜在數(shù)據(jù)科學(xué)里是沒有意義的:不要擔(dān)心資歷
回憶你上次安裝python工具包或者是從Github上拷貝一個(gè)路徑的時(shí)候,你搜索了有卓越學(xué)歷的作者嗎?你只看由專業(yè)軟件工程師撰寫的代碼嗎?當(dāng)然不是:在看作者履歷(如果你真的在意)之前你會(huì)先看路徑里的內(nèi)容。
這樣的概念同樣運(yùn)用在數(shù)據(jù)科學(xué)文章之中:文章是以質(zhì)量來評(píng)判的不是作者資歷。在網(wǎng)上沒有發(fā)表的門檻。不需要特定的證書,沒有象牙塔供你攀登,沒有考試來讓你通過,沒有門衛(wèi)把你阻攔在學(xué)習(xí)和寫作數(shù)據(jù)科學(xué)之外。雖然一個(gè)學(xué)位可以很有用,但在為數(shù)據(jù)科學(xué)做貢獻(xiàn)的時(shí)候它一定不是必要的。
在這篇很棒的文章里,Rachel Thomas,一個(gè)專業(yè)的機(jī)器學(xué)習(xí)研究員對(duì)于為什么高級(jí)學(xué)位在深度學(xué)習(xí)中不是必要的闡述了他的觀點(diǎn)。這個(gè)名單是一部分在深度學(xué)習(xí)領(lǐng)域有貢獻(xiàn)的非PHD:
一部分在深度學(xué)習(xí)領(lǐng)域有貢獻(xiàn)的非PHD:http://www.fast.ai/2018/08/27/grad-school/
在數(shù)據(jù)科學(xué)中,獲得新知識(shí)的能力比教育背景更重要。如果你對(duì)某個(gè)學(xué)科的學(xué)習(xí)沒有信心,那么有大量的學(xué)習(xí)資源供你選擇。個(gè)人推薦Udacity,Coursera,以及使用Scikit-Learn和TensorFlow這兩個(gè)工具手把手教你機(jī)器學(xué)習(xí)等。當(dāng)然還有很多其他資源可供選擇。
不要因?yàn)槟阏J(rèn)為自己沒有背景而放棄自己參與項(xiàng)目的機(jī)會(huì)。人們?cè)诰W(wǎng)上閱讀文章之前不會(huì)考慮作者的頭銜,所以不用擔(dān)心背景。此外,一旦你意識(shí)到你的文憑來自哪里并不重要的時(shí)候,你會(huì)發(fā)現(xiàn)這樣更容易學(xué)習(xí),因?yàn)槟憧梢圆辉賹⑵帐澜逃暈槲ㄒ坏男畔?kù)。對(duì)于數(shù)據(jù)科學(xué),可以從互聯(lián)網(wǎng)上學(xué)到所需的一切,通常比在課堂上更快。
保持開放的態(tài)度也很重要:只要當(dāng)我不完全確定我使用的方法是正確的時(shí)候,我都會(huì)在我的文章中說明這一點(diǎn),并且歡迎任何人的指正。還沒有標(biāo)準(zhǔn)的方法來研究數(shù)據(jù)科學(xué),但仍然可以從其他有經(jīng)驗(yàn)解決類似問題的人那里學(xué)到很多東西。
學(xué)習(xí)數(shù)據(jù)科學(xué)應(yīng)該有這樣的意識(shí):學(xué)習(xí)任何必要的東西來使自己有承擔(dān)任何數(shù)據(jù)科學(xué)項(xiàng)目的能力,并且保持一個(gè)謙虛的心態(tài)愿意接受建議。
能完成工作的工具就是***的工具
Windows操作系統(tǒng)vs MacOS操作系統(tǒng);R語(yǔ)言vs Python;Sublime vs Atom vs PyCharm;媒體vs自己的博客。這些對(duì)比都是沒有意義的,有意義的是使用能解決問題的工具。
雖然更多功能聽起來很棒,但它們通常會(huì)妨礙工作。一般來說,盡量讓事情變得簡(jiǎn)單。建議是使用Medium,有限的功能,讓你專注于內(nèi)容,而不是花時(shí)間按照我的想法嘗試去給內(nèi)容排版。
所以,更多的選項(xiàng)意味著投入更多的時(shí)間來定制這些選項(xiàng),而只有更少的時(shí)間來完成應(yīng)該做的事情。
我之前陷入了工具優(yōu)化的循環(huán):我被說服轉(zhuǎn)向新的技術(shù)并花時(shí)間學(xué)習(xí)這些功能,然而***只是被告知這項(xiàng)技術(shù)已經(jīng)過時(shí)。不管怎樣,又會(huì)出現(xiàn)新的技術(shù)或工具聲稱會(huì)讓效率提高。我不久前停止在IDE(集成開發(fā)環(huán)境)之間切換,***決定使用Jupyter + Sublime Text,因?yàn)轭~外的東西幾乎沒有多大的用處,因?yàn)橹挥脕砭帉懘a。
當(dāng)有足夠的理由切換工具時(shí),不反對(duì)切換工具,但僅僅為了新穎性而切換工具并不是提高效率的方法。如果你真的想要開始,請(qǐng)選擇一個(gè)工具并堅(jiān)持下去。如果啟動(dòng)項(xiàng)目并發(fā)現(xiàn)工具中缺少某些內(nèi)容,那么可以開始尋找所需內(nèi)容。在自己知道需要這些功能之前,不要選擇擁有更多功能的華麗新工具(這也適用于購(gòu)買汽車)。換句話說,不要讓工作例程的優(yōu)化妨礙工作。
選擇一個(gè)策略并堅(jiān)持下去!
哪里可以找到你的靈感:廣泛而深入地閱讀
在與他人隔絕的情況下,偉大的想法不會(huì)自己出現(xiàn)。相反,它們是通過將舊概念應(yīng)用于新問題、混合兩個(gè)現(xiàn)有想法或改進(jìn)經(jīng)過驗(yàn)證的設(shè)計(jì)而產(chǎn)生的。找出寫什么的***方法是閱讀其他數(shù)據(jù)科學(xué)家們正在研究的方向。當(dāng)我困在一個(gè)問題中或需要一些新的寫作想法,我不可避免地開始閱讀。
此外,如果你對(duì)自己的寫作風(fēng)格不自信,那么先模仿你最喜歡的作家。查看他們的文章的結(jié)構(gòu),以及他們?nèi)绾翁幚韱栴},并嘗試將相同的框架應(yīng)用于項(xiàng)目和文章。每個(gè)人都必須從某個(gè)地方開始,借鑒別人的技術(shù)上寫文章是沒有必要有羞恥感的。最終,你會(huì)發(fā)展出自己的寫作風(fēng)格,其他人也就可以學(xué)習(xí)你的寫作風(fēng)格。
建議廣泛和深入地閱讀,在開發(fā)和探索之間找到平衡。開發(fā)和探索問題是機(jī)器學(xué)習(xí)中的一個(gè)經(jīng)典,特別是在強(qiáng)化學(xué)習(xí)中:我們有一個(gè)代理人需要在全面了解環(huán)境中找到平衡,這就需要在探索知識(shí)和他認(rèn)為將帶來***回報(bào)的行動(dòng)之間做出選擇。
通過廣泛的閱讀,探討數(shù)據(jù)科學(xué)的許多不同的領(lǐng)域,并深入閱讀,發(fā)展我們的特定領(lǐng)域的專業(yè)知識(shí)。你可以把這個(gè)應(yīng)用到你的寫作和數(shù)據(jù)科學(xué)的實(shí)踐技能,你已經(jīng)有-開發(fā)-學(xué)習(xí)新的技術(shù)-探索這樣一條線路。
對(duì)選擇項(xiàng)目的***建議是從小做起。項(xiàng)目只會(huì)隨著你工作的進(jìn)展而增長(zhǎng),而且不管你分配給項(xiàng)目多少時(shí)間,它都要花更長(zhǎng)的時(shí)間。承擔(dān)一個(gè)完整的機(jī)器學(xué)習(xí)項(xiàng)目可能是很誘人的,但是如果你仍然試圖學(xué)習(xí)Python,那么只能在同一時(shí)間選擇一件事情。也就是說,如果你有足夠的信心去承擔(dān)整個(gè)項(xiàng)目,那就去做吧!沒有比實(shí)踐更有效的學(xué)習(xí)方法,尤其是在一個(gè)問題中處理這些片段。
結(jié)論
與任何長(zhǎng)延遲回報(bào)的工作一樣,寫作有時(shí)也會(huì)很困難。然而,有一些具體的行動(dòng)使過程更容易,并產(chǎn)生積極的反饋回路。寫作沒有秘訣,最多就只有減少開始寫作時(shí)的猶豫,從而開始并幫助你繼續(xù)前進(jìn)。當(dāng)開始或推進(jìn)數(shù)據(jù)科學(xué)事業(yè)時(shí),記住這些小貼士,建立并保持一個(gè)富有成效的寫作習(xí)慣。
相關(guān)報(bào)道:
https://towardsdatascience.com/practical-advice-for-data-science-writing-cc842795ed52
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)文章,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】