成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據騙子無處不在,教你拆穿所謂“萬金油”

大數據 數據分析 機器學習
數據分析師、機器學習/人工智能工程師、統計學家,這樣的頭銜是不是聽起來很高大上?但小心別被騙了!高薪誘惑之下,不少數據騙子也隱藏在其中,這些騙子毀了遵紀守法的數據專業人士的好名聲。

本文轉載自公眾號“讀芯術”(ID:AI_Discovery)

數據分析師、機器學習/人工智能工程師、統計學家,這樣的頭銜是不是聽起來很高大上?但小心別被騙了!高薪誘惑之下,不少數據騙子也隱藏在其中,這些騙子毀了遵紀守法的數據專業人士的好名聲。

[[349988]]

數據騙子非常善于在眾目睽睽之下隱藏自己,你甚至可能都沒有意識到他們的存在,他們有可能就藏身于你的公司當中、不過還好,如果你知道該找些什么線索,那么他們是很容易識別的。第一點線索就是,他們無法理解分析學和統計學是兩個截然不同的學科。

不同的學科

統計學家接受的訓練是推斷數據之外的內容,而分析師接受的訓練是探究數據集中的內容。換句話說,分析師根據數據中包含的內容得出結論,而統計學家根據未包含于數據中的內容得出結論。分析師幫助你提出好問題(假設生成),而統計學家幫助你獲得理想答案(假設測試)。

還有一些神奇的“混血”,會擁有兩種身份……但他們不會同時扮演這兩種角色。為什么呢?數據科學的一條核心原則是,如果要處理不確定性,則不能使用相同的數據點進行假設生成和假設測試。數據有限時,不確定性會迫使你在統計學和分析學之間做出選擇。

沒有統計學,就無法知道自己剛剛產生的觀點是否站得住腳。沒有分析學,就只能在摸索中前進,幾乎無法掌握未知的未知。

這是一個艱難的選擇!是睜開雙眼接受靈感(分析學),發誓放棄知道新發現是否能站住腳的滿足感,還是冒著冷汗祈禱自己選擇要問的(在沒有任何數據的情況下,一個人在雜物室里冥思苦想出來的)問題值得自己即將得到的嚴密答案(統計學)?

“兜售”后見之明的小販

騙子擺脫這種困境的方式是對其視而不見,發現一片薯片長得像貓王,然后假裝對這一事實感到驚訝。(統計假設測試的邏輯可以歸結為:我們的數據是否讓我們驚訝到改變自己的想法。如果我們已經見過這些數據,我們又怎么會對它們感到驚訝呢?)

 

在你看來,圖片中的云朵和薯片長得像兔子還是像貓王呢?亦或是像某一位總統?

騙子發現一個模式并從中得到啟發,然后以相同的模式測試相同的數據,為的是用一到兩個合理的p值生成可驗證其理論的結果,他們這樣做實際上是在欺騙你(可能也是在欺騙他們自己)。這樣的p值沒有任何意義,除非在查看數據之前對假設作出承諾。

騙子模仿分析師和統計學家的一舉一動,卻并不明白其中緣由,這為整個數據科學領域帶來了不好的聲譽。

真正的統計學家總是謹慎行事

由于統計學家在嚴密的推理方面享有近乎神秘的聲譽,“萬金油”在數據科學領域的出現頻率創下了歷史新高。這種騙術不易被人發覺,尤其是在那些毫無防備的受害者認為這正關系到方程和數據的時候。數據集就是數據集,對嗎?錯,要看你如何使用數據集。

這些騙子身上都帶有冒牌貨的標志,你只需要一個線索就可以識破他們的真面目:騙子只有后見之明——用數學重新發現他們已經知道的存在于數據中的現象,而統計學家提供的是具有先見之明的測試。

與騙子不同,優秀的分析師是思想開放的典范,總是將鼓舞人心的見解與提醒相結合,提醒人們觀察到的某種現象可能有多種不同的解釋,而優秀的統計學家則會謹慎地做出決定。

分析師帶來靈感

分析師不必負責一切,他們要根據數據中包含的內容得出結論。如果他們想對沒見過的事物提出觀點,那他們擔任的就是另一種工作了。他們應該摘下分析師的“帽子”,帶上“統計學家”的頭盔。畢竟,無論你的正式職位是什么,都沒有這樣一條規則說你不能投身兩種行業。只要你想,就可以這么做,只是不要把它們弄混了。

 

騙子怎樣測試假設

擅長統計并不意味著擅長分析,反之亦然。如果有人跟你說的與之相反,請自行思考。如果這個人告訴你,你可以對你研究過的數據進行統計推斷,請再次問問自己。他很有可能是個騙子。

隱藏在天花亂墜的解釋背后

如果你在現實生活中觀察數據騙子,你會發現他們喜歡編造一些天花亂墜的故事來“解釋”觀察到的數據:故事聽起來越學術越好,并不在乎它們只是(過分)符合事后的數據。

騙子這樣做完全是胡扯。再多的方程甚至是夸夸其談也無法彌補這樣一個事實:他們沒有證據表明他們知道自己談論的內容超過了數據的范圍。不要被他們天花亂墜的解釋蒙騙了。如果是統計推斷,他們就必須在看到數據之前謹慎做出決定。

這相當于炫耀他們的“通靈”能力,先瞄一眼你出的牌,然后預測你手上拿著什么牌……無論你拿著什么牌,他們都能預測出來。做好準備,聽聽他們的花言巧語:你的面部表情如何將你手中的牌泄露給他們。這是后見之明偏誤,它在數據科學領域隨處可見。

分析師說,“這是你剛才出的方塊皇后。”統計學家說,“游戲開始之前,我把我的假設寫在了這張紙片上。我們開始吧,觀察一些數據,看我假設得對不對。”騙子說,“我早知道你要出方塊皇后,因為……”

機器學習說,“我要一直提前調用它,看看我完成得如何。然后重復再重復。我可能會調整自己的反應,從而適應某個有效的策略。但我會用某個算法來完成這一過程,因為手動追蹤這一切實在太煩人了,”

阻止騙子進入你的生活

要處理的數據不算太多時,你必須要在統計學和分析學之間做出選擇。幸運的是,如果你有大量數據,那么你將有一個絕妙的機會來利用自己的分析和統計信息,而不會上當受騙。你還可以通過一個完美的計策來讓自己免受騙子侵害,這叫做“數據拆分”,筆者認為這是數據科學中最強大的思想。

為保護自己免受騙子侵害,你要做的就是確保某些測試數據處于他們可窺探到的范圍之外,然后將其他所有內容看作分析學(不要當真)。當你面對某種你可能會全盤接受的理論時,可以用它來替你做主,然后打開你的秘密測試數據,看看這個理論是不是一派胡言。

從人們習慣的時代到“小數據”時代,這是一個巨大的文化轉變,你必須解釋自己是如何知道自己所知道的東西,才能以一種輕松的方式-說服人們,你可能確實知道一些東西。

同樣的道理也適用于機器學習/人工智能

一些偽裝成機器學習/人工智能專家的騙子很容易被識破。你可以通過識破蹩腳工程師的方法來識破他們:他們反復嘗試構建的“解決方案”無法交付。(較早的預警信號是他們缺乏行業標準編程語言和庫的經驗。)

但是那些構建出看上去可以正常運行的系統的人呢?你怎么知道事情是否有可疑之處?同樣的道理也適用于此!騙子是陰險的,他會向你展示他們的模型有多好,用的是他們制作模型時使用的數據。如果你構建了一個極其復雜的機器學習系統,你怎么知道它能不能正常運行呢?你沒法知道,除非你能證明它可以處理以前從未見過的新數據。

有足夠的數據可以分割時,無需改變工整的公式即可證明項目的合理性(這仍然是一種老習慣,在任何地方都可以看到,不僅僅是在科學領域)。

進行統計工作或保持謙虛的態度

套用經濟學家保羅·薩繆爾森(Paul Samuelson)的一句俏皮話:騙子成功預測了最近五次衰退中的九次衰退。

筆者對數據騙子沒有耐心。“了解”一些長得像貓王的薯片又怎樣?沒人在乎你的觀點是不是符合原來的“薯片”。解釋再天花亂墜,筆者也不為所動。看看理論/模型能不能適用于(而且能夠一直適用于)一大堆從未見過的新“薯片”,這才是對該觀點的真正考驗。

 

給數據科學專業人士的建議

數據科學專業人士,如果你想得到那些明白此處幽默的人的重視,請不要再用花哨的方程式來支持你的個人偏見。讓我們看看你的真才實學。如果你想讓那些“了解”你理論/模型的人將這些理論/模型看作是鼓舞人心的詩歌,那么就請大膽地在他們面前用全新的數據集進行一次偉大的展示吧!

給領導者的建議

領導者不愿認真看待任何與數據有關的“見解”,除非這些見解已經通過了新數據的測試。不想付出努力嗎?要堅持利用分析學,但不要依賴于這些見解——它們站不住腳,而且其可信度尚未通過檢查。

此外,公司擁有大量數據時,將分割數據作為科學文化的核心部分,甚至通過對專用于統計數據的測試數據的訪問加以控制,從而將其應用于基礎架構,這不會有任何壞處。這是一個將“萬金油”扼殺于搖籃之中的好辦法!

數據過少而無法分割時,只有數據騙子才會嚴格追隨他們的靈感,用數學方法重新發現他們已知的存在于數據中的現象,宣稱他們的驚人發現具有統計學意義,這便是后見之明。這讓他們有別于思想開放的分析師和細心的統計學家。

數據充足時,要養成數據分割的習慣,一定要對原始數據堆的不同子集分別進行分析和統計。這樣你就可以在不受騙的情況下占據雙重優勢了!

 

責任編輯:華軒 來源: 讀芯術
相關推薦

2020-04-28 17:13:12

箭頭函數ES6函數

2023-10-24 08:01:38

String傳統

2023-06-30 07:19:25

電源供電顯卡

2017-12-29 10:54:01

Python編程語言系統管理工具

2017-09-14 18:02:53

傷害學神挑戰

2022-09-16 10:44:17

物聯網通信網絡

2014-04-23 13:08:04

Dockerlinux

2024-12-26 09:58:18

2021-02-18 16:41:26

大數據疫情物聯網

2021-06-29 07:19:06

Redis容器化K8S

2021-06-29 15:39:16

容器技術Redis

2013-11-11 15:04:52

2024-06-03 17:24:34

2013-04-07 13:03:34

ASP.NET

2022-03-28 09:22:55

數據分析數據

2019-04-30 14:05:20

思科ACI

2023-08-18 14:39:52

5G4G

2013-12-30 10:05:54

Linux操作系統

2021-10-29 15:30:37

SASE/網絡安全

2025-04-24 08:25:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本欧美国产在线 | 精品一区二区三区在线观看 | 国产精品久久网 | 综合国产 | 蜜臀网 | 日韩影院一区 | 日本xx视频免费观看 | 成人毛片视频免费 | 精品国产久 | 国产欧美日韩在线播放 | 精品久久久av | 97av| 国产激情网站 | 色资源在线视频 | 久热中文字幕 | 国产视频二区在线观看 | 成人免费在线观看 | 日日天天| 国产精品一区在线观看 | 国产亚洲一区二区精品 | 日韩手机在线视频 | 欧美专区在线 | 人人性人人性碰国产 | 久久久av中文字幕 | 中文字幕在线视频免费视频 | 久久亚洲国产精品日日av夜夜 | 九九久久久 | 欧美久久天堂 | 一区二区三区视频播放 | 精品国产乱码久久久久久丨区2区 | 91精品国产乱码久久久 | 国产不卡一区 | 国产999精品久久久久久 | 中文字幕精品一区 | 久久国产精品久久国产精品 | 一区二区三区成人 | 在线观看日本网站 | 一区在线观看 | 国产成人精品一区二 | 国产一二三区精品视频 | 国产一区三区在线 |