一小時掌握大數據思維的秘訣丨周濤精彩直播手記
什么是大數據思維和大數據創新的精髓?
一個人有沒有大數據思維主要體現在兩個方面:
***他是不是具有定量化的思維方式
我們看問題時習慣從經驗、定性地角度來看待,不習慣所有的決策都用定量化的方式來進行描述。例如我們經常說一個人漂亮,說一個人好,但是我們不習慣用一套圖像識別的算法來真正計算這個人漂亮到什么程度,好到什么程度。
什么是定量化?
一個簡單的例子,比如一個新的廣告營銷,新的算法比舊的算法好,不是說大概好在哪三個方面,而是我們要把所有的人群無偏地劃成兩個部分。***部分用舊算發,第二部分用新算法來進行營銷推送,最終發現新算法帶來的點擊率、銷售均好于舊算法,我們才能說新的算法確實比舊算法好。這是一種典型的定量化思考方式。
第二個點是大數據思維需要我們在某種程度上相信機器、相信數據勝過相信自己,這往往是很難接受的。
因為人走下神壇之前,會覺得自己的智力是凌駕于計算機之上的,也會覺得一個算法如果做得好,我們是應該是完全理解它的。其實,機器學習、人工智能它吃進去的是大量的數據,吐出來的是結果,在這些數據和結果之間的連接并不是我們想象的完全能夠被人理解的,因為它可能是用幾百萬甚至幾億的特征來得到更好的分類,更好的預測,它處理和思考問題的方式和人不一樣。人是能夠更快、更好的把握幾個重要的特征,但是精確度卻遠不如計算機。很多時候我們覺得但凡是不可理解的就是不可相信的,這種觀點一定要拋棄。
所以,如果你能夠學會用定量化的方方式方法去處理我們的世界,去評判所有政策的好壞,又能敢于放棄一點點的尊嚴去相信計算機的結果,這是初步具備了大數據思維的基礎。
數據化時代帶給我們哪些顛覆性的變化?
數據時代往后走
它的目標是要把我們帶入智能時代
大數據時代的核心精髓有兩個組成部分:
一個是數據的外部化
我們進到了數據時代,一組數據不僅僅在產生它的地方被用過,而是在很多地方及環境被使用,這叫數據的外部化。因為它的流通、拷貝幾乎不用新的代價。
第二個就是人工智能
通過人工智能得到一些簡單統計得不到的深刻洞見,這才是大數據,不然就是商務智能在更多數據集上的應用。
數據時代是智能時代的***,數據時代給我們帶來更多的決策支撐,通過這些深刻洞見使我們的決策更準確、更高效。但是,未來顛覆性的變化,就是在整個的決策環境中,原材料就是數據,而大腦就是計算機,人類要被踢出這個決策環境。在這個時候,我們整個社會的經濟乃至整個勞動力結構都會發生巨大的變化,很多人可能會面臨未來不適應這種變化,也沒有辦法發揮他的社會價值。留下來的勞動力幾只有幾類,一類是從事創造型的勞動,通過密集的智力勞動創造新的科技知識,創造新的意識、作品等等。第二類是情感類的勞動,通過接觸使得人能遠離恐懼、痛苦,從而感到安穩,感到幸福快樂。其它的勞動很多都會被替代掉。
如何接觸大數據創新產品?
大數據創新產品長什么樣子?怎么判斷?
大數據創新和偽大數據創新的區別:
- ***就是有沒有原始的大規模數據源
- 第二有沒有好的分析方法
不管是算法,還是新建的特定的科學模型,得到原來得不到的深刻的洞見,這兩者加到一起就能判斷有沒有大數據創新。
如何看待隱私及倫理?
隱私和倫理是兩個不同的問題
前者要簡單一下,后者要復雜一些
首先,從個人來講,沒有義務也沒有能力去保護自己的隱私。就像面對假酒,我們消費者是沒有義務去分辨什么是甲醇什么是乙醇,但是判刑是判的做假酒的人。
沒有能力是指現代的互聯網科技水平非常高,我們鍵盤敲擊的記錄在主機上都能記錄下來,所以除非你自絕于這個社會,不然是不可能真正保護自己的隱私,因為你走在路上,還有天網照著你呢,你去看病、買房、買車都會留下記錄,銀行取錢也要留下記錄。從這個角度講,很難,所以說沒有能力去保護自己的隱私。
反過來講,我們要通過從企業端去進行嚴厲懲處,才能夠去清潔市場環境或者生態環境。一個企業如果非法獲取個人數據及隱私并且還用它做了嚴重傷害人的事情,那我們一定要予以重處。在這種情況,一方面要靠立法,但又不能光靠立法,因為立法要實施需要通過技術而不是一紙空文。我們既要通過技術去鎖定核心隱私數據在全管理流程中到底是什么人、用什么權限、在什么時間點、從哪個設備上下載操作數據,我們一定要打上水印,能夠追蹤。一旦隱私泄露就能追蹤到這個人。
第二我們要給能處理隱私數據的企業要有個資質
隱私還是要從企業端來抓,不能從個體能力。教個人保護隱私,價值往往比較小。
倫理的問題是說
未來我們對人工智能越來越依賴
會發生我們想象不到的
對當前社會結構及機制的影響
***個點是通過數據和算法,機器預測你將以很大概率犯罪,從而在你還沒有實施犯罪行為時,你就已經實質上受到了懲罰。比如說通過一些面部掃描、名字的分析、旅行軌跡的分析,都會判定是不是恐怖分子。因為這些原因每次在機場都會被勒留很長時間,本質上收到了一些不公正的待遇,但是這件事總體來說降低了恐怖主義可能帶來的巨大風險,這個事兒應不應該做,能不能這樣做都是問題。
第二是算法本身的設計者在設計算法時會有不公平。設計者本人會把他潛在的種族歧視、性別歧視等等放在算法里面,故意或者不故意,我們很難去甄別,因為代碼很長。
第三個是算法本身的原因。比如說,美國現在步態和人臉識別對于有色人種的識別精確度要高于白種人,那就意味著有色人種犯罪或者進行其他違法行為時被機器抓住的可能性要更大一下。
第四個問題,當因為算法而產生了重大事故到底誰來承擔這個責任,比如說自動駕駛,當然還有更多的問題,不是人產生的這個結果,而是機器智能產生的這個結果,那是應該由撰寫人工智能算法的人來負責還是由設計這個體系的,還是應該沒有人負責,公共社會承擔這個責任。
這些問題都是我們現在還沒有切身體會,但是未來都可能會涉及。當我們的醫生診療、法院的判決、甚至是自動無人駕駛的汽車都變成常態的時候,這些都會變成非常大的問題。
怎樣培養大數據思維的能力?
關鍵有兩類東西:
- 一類是統計學,建立統計學的理念
- 第二是機器學習, 要有機器學習的思維方式