成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為什么基于機器學習的產品很難見到?

大數據
那些漫天飛的所謂大數據分析報告,不是數據挖掘,更不是機器學習。類似本文所配題圖是不是經常出現在大部分機器學習的文章中?事實是,完成這樣的工作,不需要機器學習,只需要簡單計數器,青鳥集訓幾個月的分分鐘搞定。

大數據甚囂塵上了三四年,如今創業不講機器學習和數據挖掘都不好意思跟投資人介紹。但現實情況是,你在市面上見過多少套已經產品化的基于機器學習的軟件?鳳毛麟角。恐怕很多滿嘴術語的從業者都不明白,作不到預測的機器學習都是在忽悠。而能實現預測的產品,說難不難,可是門檻不低,能做出來的創業團隊不多見。

機器學習

【本文中人稱指代純粹為修辭手法,部分文字有嘲諷含義,夸張更是必不可少,不喜勿入。】

那些漫天飛的所謂大數據分析報告,不是數據挖掘,更不是機器學習。類似本文所配題圖是不是經常出現在大部分機器學習的文章中?事實是,完成這樣的工作,不需要機器學習,只需要簡單計數器,青鳥集訓幾個月的分分鐘搞定。

你覺得深度學習很牛啊,連圖片和聲音識別都搞得很好了,搞些文本識別有啥意思。可很少有人坦白告訴你,到目前為止,深度學習尚未在自然語言處理中有突破進展,NLP比圖像和語言識別實際上更難。圖像和語音識別出來是啥?還是文本。現在企業里至少95%以上的重要數據還是文本,做產品的能不去覆蓋?

現在做數據挖掘和機器學習的人員供不應求,BAT3四處高薪挖角,用過幾個開源庫的就號稱是熟手,價碼高得離譜。一提機器學習不就是聚類分類嘛。“聚類我懂啊,k-means天天用。”還不說讓你改進算法,你真嘗試過用它做個產品出來嗎?拿個開源的模塊攢出一個Demo,到客戶那里實測。一個相同的測試數據集,產品跑三遍,聚類結果沒有相同的。用戶當時就蒙了,相同的數據還能有不同結果?你振振有詞地解釋:“k-means算法就這樣啊,運算前要猜分類的個數,干脆就給個隨機數,另外,也得給幾個隨機初始中心點,這樣下來,每次跑聚類結果不一樣太正常不過了。這是你不懂。我在哪哪哪就是這么用的!”用戶合情合理的對產品常見的基本要求一下就被你歸到無理那類去了。

互聯網公司自己使用的機器學習引擎,都尚未產品化,甚至連產品化預期都沒有。隔段時間修修補補,換一個訓練和測試集,改兩個算法細節,調三個參數,這些在產品研發里十分忌諱的行為司空見慣。反正系統也不會拿出去用,一般用戶都只能接觸到一點點運算結果,學術界也還在摸著石頭過河,是不是有穩定結果也無所謂,財大氣粗的deep learning隨隨便便搞上千個計算節點,只要召回率有改善就是極大的勝利。在這樣氛圍里工作的工程師出來自己創業能做出產品來嗎?

那個知乎上得票第一的回復說,看完公開課的水平已經足夠應付灣區的工作了。是,完全同意,如果你只想當一輩子底層碼農,只想當大公司大項目里一顆可有可無的螺絲釘,不想有機會主持一個產品的設計和實現。要知道,那些大公司里也有很多研究統計和AI科班出身的。

想做機器學習的產品,不會調算法那是不可能的,基礎的數學不過關根本理解不了算法還談什么調整。很少有人能告訴你在某個特定場景下針對特定數據集用哪個算法更合適,這是個全新的領域,需要你自己去理解業務特征并選擇試驗不同算法以獲得最優結果。如果想開發一個優秀的機器學習產品,你需要一個優秀的產品+設計+科研+工程師團隊來解決各方面的細節問題:從機器學習理論、到系統構建、到專業領域知識、到宏觀產品思路、到技術細節實現、到圖形界面設計等等。

是,更多的數據勝過更好的算法。你要做網絡行為異常分析用以偵測攻擊,覺得采集了大數據就已經勝利在望。可是很不幸的,你手里的大數據基本全是正常行為,異常只是很少數。然后,你意識到正統的分類算法對類別平均分布的訓練數據學習效果好,對這種不平衡的訓練集很容易出現偏差(能意識到這點已經不容易了,常見的都是直接調開源庫硬上)。這時候不懂理論怎么搞?還有,海量數據的特征維度太多,你到底應該選哪些特征用以計算?接下來讓你構建一個分類器實時預測網絡攻擊,只能拿到一個時間窗口里的數據,這跟大數據有啥關聯?到這里,你就會發現扎實的基本功是做機器學習產品的必要基礎。

Gartner說數據分類是以數據為中心的安全的基礎,最近拿了那么多融資的Digital Guardian也把數據分類一直掛在口頭,可它做出來了基于機器學習的分類器嗎?用戶手里拿著上億條數據使用的日志,完全不知道哪些才是關鍵數據,必須借助分類器才可以發現風險。根據實際的大客戶案例,基于自然語言處理和機器學習的產品,才能真正有效實現數據分類。

其實還有很多可以寫,限于篇幅,以后再聊。

 

責任編輯:李英杰 來源: DJ的札記
相關推薦

2021-03-23 10:08:02

編程互聯網數據科學

2020-07-29 07:05:00

DevSecOps

2016-12-13 19:47:31

大數據

2016-12-16 12:54:44

數據挖掘大數據

2012-03-07 13:43:59

Objective-C

2022-09-19 00:08:22

人工智能機器交通管制

2010-08-06 10:29:56

蘋果

2023-05-15 14:02:24

2021-04-25 10:26:34

Python機器學習人工智能

2017-05-25 12:04:58

云計算安全云數據

2024-04-29 11:50:01

軟件

2021-07-26 14:50:03

人工智能算法云計算

2014-07-14 09:58:18

Objective-CiOS學習

2021-03-08 11:11:00

機器學習人工智能AI

2022-06-09 16:48:10

TensorFlow機器學習

2019-07-19 19:16:51

物聯網人工智能傳感器

2017-04-05 13:30:16

機器學習開源行業發展

2019-08-28 11:51:12

云計算人工智能機器學習

2021-12-15 16:35:59

數字化轉型IT技術

2021-04-12 10:28:51

機器學習人工智能AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99re在线视频观看 | 国产精品一区二区在线观看 | 欧美不卡在线 | 午夜a v电影 | 美女视频三区 | 国产精品成人在线播放 | 乳色吐息在线观看 | 99精品久久久久久 | 亚洲精品在线免费看 | 男人天堂网站 | 成人精品 | 99精品视频在线 | 成人亚洲性情网站www在线观看 | 免费国产成人av | 中文字幕视频在线 | 国产午夜高清 | 在线毛片网 | 久久久免费 | 影音先锋亚洲资源 | 一级做a爰片性色毛片视频停止 | 免费国产一区 | 波多野吉衣久久 | 亚洲视频二区 | 日韩欧美三区 | 精品一区二区三区在线观看国产 | www.青青草 | 国产精品久久久久久吹潮日韩动画 | 精品国产乱码久久久久久闺蜜 | 亚洲福利| 青青草中文字幕 | 国产综合精品一区二区三区 | 久草青青草 | 一区二区三区观看视频 | 成人av电影天堂 | 中文字幕亚洲视频 | 美女黄视频网站 | 中文字幕av网站 | 亚洲+变态+欧美+另类+精品 | 一区二区免费在线视频 | 欧美日韩在线免费观看 | 欧美成人手机在线 |