別跟風(fēng)了!你的公司根本不需要數(shù)據(jù)科學(xué)家
大數(shù)據(jù)文摘出品
編譯:Hope、倪倪、夏雅薇
數(shù)據(jù)科學(xué)家不是魔法師,當(dāng)所需的數(shù)據(jù)不可得或者質(zhì)量很差的時(shí)候,數(shù)據(jù)科學(xué)家能做的很有限,這已經(jīng)超過(guò)了技術(shù)的范疇。企業(yè)管理者如果能從全局出發(fā)部署數(shù)據(jù)戰(zhàn)略,才能真正解決當(dāng)下數(shù)據(jù)科學(xué)家的痛點(diǎn),這樣數(shù)據(jù)科學(xué)家才能發(fā)揮作用解決公司的痛點(diǎn)。
大約在四年前,數(shù)據(jù)科學(xué)家成為了每個(gè)公司的必須雇的人。技術(shù)人員爭(zhēng)先恐后地甩掉在大學(xué)用的統(tǒng)計(jì)課本,花大量的時(shí)間重新學(xué)習(xí)Python Pandas和R,然后惡補(bǔ)最時(shí)髦的機(jī)器學(xué)習(xí)理論,再買幾件geek制服顯得更像那么回事。我就是其中一員。
如果你是做Hadoop開(kāi)發(fā)的,這也是你的黃金時(shí)代。因?yàn)榇蠹乙呀?jīng)達(dá)成了共識(shí),不會(huì)map/reduce得數(shù)據(jù)科學(xué)家不是合格的數(shù)據(jù)科學(xué)家。伴隨著數(shù)據(jù)科學(xué)的熱潮,印度的程序員工廠推出了數(shù)以千計(jì)的Hadoop程序員和數(shù)據(jù)科學(xué)“專家”來(lái)迎接未來(lái)的“大事件”,一定程度上延長(zhǎng)了瀕臨倒閉的Hadoop公司的壽命。
各大公司在***時(shí)間都開(kāi)始了對(duì)數(shù)據(jù)科學(xué)家的投入。每一家在納斯達(dá)克指數(shù)中占有一席之地的公司都向這些數(shù)據(jù)科學(xué)家支付了巨額薪水,他們認(rèn)為數(shù)據(jù)的先知力量會(huì)讓他們挫敗競(jìng)爭(zhēng)對(duì)手。
而各個(gè)銷售經(jīng)理和高層管理只要每天早上打開(kāi)iPad就能實(shí)時(shí)看到公司具體運(yùn)營(yíng)情況。數(shù)據(jù)儀表圖成為了重要的地位象征,企業(yè)高管會(huì)獲得具有3D可視化和實(shí)時(shí)動(dòng)畫散點(diǎn)圖的超級(jí)豪華儀表圖,而基層員工也會(huì)看到平面2D儀表盤,雖然沒(méi)有那么花哨,但也會(huì)得到必要的信息和簡(jiǎn)要的摘要。
然而,這其實(shí)改變不了什么。那些數(shù)據(jù)科學(xué)家(大部分具有高學(xué)歷和多年工作經(jīng)驗(yàn),如在制藥或高級(jí)材料工程領(lǐng)域)將會(huì)很快意識(shí)到他們使用的數(shù)據(jù)質(zhì)量其實(shí)非常糟糕。
大家普遍認(rèn)為企業(yè)中存在各個(gè)環(huán)節(jié)、部門的各式各樣的數(shù)據(jù)都是有用的,但是***他們發(fā)現(xiàn)這些數(shù)據(jù)大部分是過(guò)時(shí)的,沒(méi)有固定格式的,只能夠?yàn)楫?dāng)時(shí)需要并收集這些數(shù)據(jù)的程序員所用。
大部分?jǐn)?shù)據(jù)都是以電子表格形式儲(chǔ)存,在沒(méi)有監(jiān)管的情況下多次被修改,因此與真實(shí)數(shù)據(jù)有很大偏差。很多數(shù)據(jù)集沒(méi)有詳盡的文檔記錄,表格的表頭名稱意義不清,比如MFGRTL3QREVPRJ,不同表格之間也沒(méi)有一致的主鍵。換句話說(shuō),他們擁有的數(shù)據(jù)不適合做任何分析,更不要提針對(duì)藥物試驗(yàn)的專業(yè)測(cè)試分析。
現(xiàn)在你拿著15萬(wàn)美元的薪水來(lái)做可視化儀表圖,給那些根本不懂統(tǒng)計(jì)只想獲得百萬(wàn)利潤(rùn)和巨額提成的銷售經(jīng)理看。你的數(shù)據(jù)一團(tuán)糟,根本沒(méi)法用。當(dāng)你請(qǐng)求重建數(shù)據(jù)庫(kù)時(shí),公司陷入了掙扎,這個(gè)項(xiàng)目要花上百萬(wàn),而他們認(rèn)為沒(méi)有必要。現(xiàn)在你面臨一個(gè)選擇,其實(shí)你可以撒個(gè)謊,用計(jì)算機(jī)隨機(jī)產(chǎn)生數(shù)據(jù),然后得到一個(gè)很可能比目前數(shù)據(jù)更加準(zhǔn)確的結(jié)果。但是這對(duì)于數(shù)據(jù)工作者是個(gè)難題,因?yàn)檫@違背了他們追求精準(zhǔn)的初衷。那該怎么辦?
現(xiàn)在,我可以裝作一個(gè)語(yǔ)義分析傳道者,告訴你需要開(kāi)發(fā)一個(gè)語(yǔ)義數(shù)據(jù)中心。實(shí)際上,這不是很難實(shí)現(xiàn),并且是有益處的,但它并不是什么神奇的魔法。語(yǔ)義數(shù)據(jù)可以比較容易轉(zhuǎn)化成可用的數(shù)據(jù)形式(如果沒(méi)有發(fā)現(xiàn)有用的數(shù)據(jù),也能發(fā)現(xiàn)并摒棄掉沒(méi)有的部分),但本質(zhì)上這不是數(shù)據(jù)科學(xué)問(wèn)題——它是數(shù)據(jù)質(zhì)量和本體工程問(wèn)題。
好了,對(duì)于那些高層決策者,當(dāng)你遇到數(shù)據(jù)上的問(wèn)題,你的數(shù)據(jù)科學(xué)家可以有“萬(wàn)花筒”般的數(shù)據(jù)分析方法,但是沒(méi)有高質(zhì)量的數(shù)據(jù)做保證,得到的結(jié)果一點(diǎn)用都沒(méi)有。巧婦難為無(wú)米之炊,這不是數(shù)據(jù)科學(xué)家的問(wèn)題,是你的問(wèn)題,你天天盯著那些能給你賺千萬(wàn)資金的可視化儀表盤,其實(shí)是看著你的錢從門前溜走。
在數(shù)據(jù)分析的項(xiàng)目中盡管你不是實(shí)際操作的人,但你的參與絕對(duì)不是可有可無(wú),首先你需要明確你想要什么信息,然后花時(shí)間與數(shù)據(jù)科學(xué)家和業(yè)務(wù)人員一起確定需要收集什么數(shù)據(jù)。不要指望你想要的數(shù)據(jù)會(huì)奇跡般地從數(shù)據(jù)庫(kù)中出現(xiàn)。
再來(lái)談?wù)剶?shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)大多是為程序員所用,寫各種應(yīng)用程序,它存在的首要目的不是為你的公司提供具有洞見(jiàn)的指導(dǎo)性意見(jiàn)。首先你要坐下來(lái)好好想想你已經(jīng)有什么資源,因?yàn)橐獜膭e人那里索要數(shù)據(jù)資源是非常被動(dòng)的,特別是當(dāng)這個(gè)數(shù)據(jù)獲得權(quán)涉及到別人的工作和職責(zé)范圍的時(shí)候。
再者,你要明白大多數(shù)數(shù)據(jù)庫(kù)都沒(méi)有詳盡的文檔記錄(有的甚至沒(méi)有文檔記錄),很多信息都需要從隱藏文獻(xiàn)中提取。這個(gè)過(guò)程被稱為推理計(jì)算,很多程序員不愿意做這個(gè)事情,因?yàn)檫@意味著他們需要從代碼去反推其他程序員的意圖,而別的程序員要么已經(jīng)離職了,要么能力有限,要么已經(jīng)忘了他們十年前寫的東西。
關(guān)系型的數(shù)據(jù)湖不能解決這個(gè)問(wèn)題,數(shù)據(jù)湖唯一能夠解決的問(wèn)題是讓計(jì)算機(jī)進(jìn)程能夠訪問(wèn)所有的數(shù)據(jù)。這是此類推理計(jì)算的必要部分,但它不是最難也不是最昂貴的部分。最昂貴的部分是弄清楚數(shù)據(jù)實(shí)際意義是什么,獲得不同的數(shù)據(jù)集甚至能夠識(shí)別出它們是關(guān)于同一件事的。這些問(wèn)題都沒(méi)有現(xiàn)成的解決方案,需要靠摸索。
這里,我們?cè)俅翁岢稣Z(yǔ)義的解決方案——圖形三重存儲(chǔ),RDF,本體管理,查詢和所有內(nèi)容。它不是一個(gè)開(kāi)箱即用的解決方案,但它是一種工具,可以使推理分析變得可行,并且可以把這個(gè)工具交給程序員來(lái)管理。
不過(guò),你需要經(jīng)常對(duì)整個(gè)數(shù)據(jù)流的過(guò)程進(jìn)行重新思考。你需要知道最開(kāi)始從哪里獲得信息,然后讓信息盡早流入數(shù)據(jù)通道。這需要你的程序員和數(shù)據(jù)庫(kù)管理員放棄一定程度的自主權(quán),在一個(gè)集中化的環(huán)境中工作。作為執(zhí)行人的你,應(yīng)該更加熟悉數(shù)據(jù)治理的世界。
對(duì)于商業(yè)人士來(lái)說(shuō),這是一個(gè)相當(dāng)激進(jìn)的改變,不止一些人意識(shí)到他們要實(shí)際動(dòng)手去解決IT問(wèn)題。不過(guò),如今的企業(yè)正在進(jìn)行轉(zhuǎn)變(并且大部分已經(jīng)成功轉(zhuǎn)型),成為專業(yè)的數(shù)據(jù)管理公司,產(chǎn)品和服務(wù)更像是它們的副產(chǎn)品。
現(xiàn)今CEO的角色是在管理銷售的同時(shí)了解公司數(shù)據(jù)的輸入與輸出,確保他們的數(shù)據(jù)質(zhì)量是***的。這不僅是為了合理的監(jiān)管,更因?yàn)閿?shù)據(jù)的完整最終會(huì)決定他們是否能夠在市場(chǎng)競(jìng)爭(zhēng)中脫穎而出。
企業(yè)***要多與數(shù)據(jù)團(tuán)隊(duì)協(xié)作交流,來(lái)確定你需要知道什么,想要知道什么,什么東西是相關(guān)的,然后再來(lái)構(gòu)建和你商業(yè)需求相關(guān)的數(shù)據(jù)收集過(guò)程。隨意從數(shù)據(jù)庫(kù)里提取一些信息來(lái)分析,只是徒增磁盤儲(chǔ)存的成本而已,雇傭數(shù)據(jù)科學(xué)家來(lái)分析垃圾數(shù)據(jù)只能得到垃圾的分析結(jié)果。結(jié)果呈現(xiàn)可能很漂亮,各種漸變梯度各種三維效果,然而卻毫無(wú)價(jià)值。
相關(guān)報(bào)道:
https://medium.com/@kurtcagle/why-you-dont-need-data-scientists-a9654cc9f0e4
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】