成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“回歸分析”真的算是“機器學習”嗎?

人工智能 機器學習
是什么將“統計”從“機器學習”中分離出來的?這是一個被討論過無數次的問題。關于這個問題的文章有很多,人們對其好壞莫衷一是。但是我發現,在“統計”和“機器學習”的爭論上,人們往往會“只見森林,不見樹木”。

是什么將“統計”從“機器學習”中分離出來的?

這是一個被討論過無數次的問題。關于這個問題的文章有很多,人們對其好壞莫衷一是。但是我發現,在“統計”和“機器學習”的爭論上,人們往往會“只見森林,不見樹木”。

 

[[194029]]

Aatash Shah曾在他的文章中作過這樣的定義:

  • “機器學習”是一種能夠直接從數據中學習,而無需依賴規則編程的算法。
  • “建立統計模型”的意思是以數學方程式來表示數據變量間的關系。

Shah更多是從“機器學習”和“統計模型”的不同目的出發,對兩者進行定義的。他把“機器學習”看成一種實踐活動,把“統計模型”則視為抽象理論。(我在這里講到的“統計模型”事實上就是“統計”。)但實際上,“統計”與“機器學習”的關系要復雜得多,僅憑定義概念來分析這兩者的關系是遠遠不夠的。

對于這一關系的哲學性思考和研究,很快就演變成了下面這些問題:

  • “機器學習”是建立在“統計”的基礎之上的嗎?
  • “機器學習”是不是一組傳統的統計數據?
  • 這兩個概念間是否存在共通之處?有沒有一個相對統一的概念?

我認為以這樣的方式建構和設計的、所謂的高水平方法,其實是錯誤的,也是非常浪費時間的。

那么在這種情況下,“回歸分析”究竟是不是“機器學習”的一種特殊形式呢?

Gregory Piatetsky-Shapiro是KDnuggets公司總裁,關于這個問題,他的觀點很好地反駁,并且打破了“回歸可能過于簡單,以至于不能稱之為機器學習”的這一說法。

在一些機器學習研究專家看來,傳統的“線性回歸”可能過于簡單,不能被稱為真正的“機器學習”,而只能算是“統計”。但我認為“機器學習”和“統計”之間的界限其實是非常模糊和任意的。比如說,C4.5決策樹算法也不是很復雜,但它卻被劃分為了“機器學習”。

其實,很多更高級、更先進的算法都產生于線性回歸,比如“脊回歸”、“最小角度回歸”和LASSO,而且這些算法大多都被機器學習專家使用過。所以,想要更好地理解這些算法,你必須要先了解基本的“線性回歸”。

因此,“線性回歸”應該是所有機器學習研究者必備工具之一。

Diego Kuonen和 CStat PStat CSci都是瑞士日內瓦大學“數據科學”的教授,他們分別是“數據咨詢所”的CEO和CAO。他們針對這個問題提出了以下見解:

每一個有監督的分析模型(來自統計、數據科學或是機器學習)都會作出一種假設,即模型輸出的分布是如何依賴模型輸入的。如果分析模型沒有作出任何假設,那么除了那些觀察到的數據之外,就沒有任何可供理性分析的根據了。

因此,把結論僅建立在一個“有效模型”(“有效模型”指的就是那些假設經過了驗證的模型)的基礎之上才是正確的做法。

為了實現理解數據的終極目標,我們需要使用兩種工具——“統計模型”和“機器學習模型”。Diego似乎不太關心使用的是哪種工具,而是關注這個工具使用得是否恰當、有效模型是否建立,以及最終的數據理解是不是增加了。如果最終的結論是建立在無效模型之上的,那么關于統計數據與機器學習間關系的爭論就是毫無意義的。

我個人對這些問題的思考已經持續了好多年。當我最初意識到“線性回歸”、“決策樹”這些簡單的概念也能夠被視為“機器學習”時,我感到非常震驚。因為在那之前的學習中,從來沒有人對我提起過“機器學習”一詞。我以為,所有跟我處于同樣專業水平的人都會有如此的反應。

認真思考了“數據研究”和“機器學習”之間的關系之后,我認為數據研究實際上是一個研究過程,而機器學習是推動這一研究進行的工具。那么給“統計”下一個現代化的定義即——“統計”一門是從數據中學習的,能夠測量、控制和溝通不確定性的科學。比起這些復雜的概念,我更樂于將“統計研究”的定義簡化為“大規模的高速統計數據分析”。

同樣簡單地理解,機器學習有三個組成部分:第一,數據;第二,模型或者估計函數;第三,需要降到最低的成本或損失。機器學習的整個raison detre過程實際上是其運用類似的統計問題來優化損失函數的過程。

那么這時,我們再回到最初的問題——“線性回歸”,也就是“回歸分析”最基本的形式,是否滿足了這些要求呢?

 

“回歸分析”真的算是“機器學習”嗎?

當然了,這個問題還沒有完全解決。假設這樣一個情景:我有十個數據,繪制了前面九個數據結果,我讓第十個數據重新返回測試,然后親自解這個方程,并手繪測試結果——這樣算是機器學習嗎?如果不算(很明顯不算是機器學習),那么究竟怎樣才算是“機器學習”呢?

與上述觀點不同的是,Mike Yeomans曾經在他的文章中提到,我們應該把機器學習簡單地看作是統計數據的一個分支。Kuonen對這個觀點表示了贊同,他同時還指出,盡管可能有人會說“數據研究其實是大規模、高速度的統計”(Daryl Pregibon, 1999),但他發現了他們的方法存在不同之處。我曾向Cannon Gray的總裁Kevin Gray征求了意見,他將這個話題引入到另一個問題中,思考著這個話題的討論是否有必要。

在此,我要感謝所有對這篇文章作出過貢獻的人,特別要感謝Diego Kuonen教授在寫作中的投入和反饋。

責任編輯:未麗燕 來源: 圖普科技編譯
相關推薦

2021-01-22 10:27:28

人工智能機器學習技術

2017-09-01 13:19:21

機器學習Logostic回歸

2014-08-22 10:06:46

機器學習

2017-11-09 10:27:02

BPM信息化CIO

2020-12-29 14:09:55

機器學習技術工程師

2017-07-25 16:06:32

白熊視頻程序員人工智能

2021-04-21 10:47:48

機器學習邏輯回歸

2017-05-17 08:24:08

TensorFlow機器學習線性回歸

2020-04-26 17:04:31

安全機器學習數據

2020-12-19 10:54:25

機器學習線性回歸算法

2020-12-23 07:54:56

Python機器學習邏輯回歸算法

2020-12-20 20:31:56

Python機器學習多元線性回歸

2017-09-18 10:48:06

深度學習零基礎入門

2016-12-12 14:31:42

戴爾

2016-01-11 10:44:38

惡意軟件惡意軟件分析

2023-02-03 11:40:49

機器學習分析情感

2020-12-25 15:24:24

人工智能

2020-11-10 08:37:05

Python線性回歸機器學習

2022-08-16 15:17:37

機器學習算法模型

2020-11-30 13:45:24

邊緣計算貨運信息處理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品日韩欧美一区二区 | 91天堂 | 国产目拍亚洲精品99久久精品 | 欧美精品一区在线 | 色综合国产 | 成人av一区| 久久久久亚洲精品 | 91精品国产91久久久久久不卞 | 毛片一级黄色 | 亚洲男人天堂 | 免费在线观看一区二区 | 亚洲欧美成人 | 欧美视频免费在线 | 97国产精品视频人人做人人爱 | 国产日韩欧美在线观看 | 日韩精品一区二区在线观看 | 天堂中文在线播放 | 欧美激情视频一区二区三区免费 | 午夜私人影院在线观看 | 国产情侣激情 | 在线免费观看毛片 | 欧美一级一| 成年人网站国产 | 美国十次成人欧美色导视频 | 国产一区二区久久 | 91精品国产一区二区三区 | 欧美精品在欧美一区二区少妇 | 亚洲欧美日韩中文在线 | 免费国产一区二区 | 超碰97在线免费 | 国产中文字幕网 | 国产1区2区3区 | 国产精品av久久久久久久久久 | 欧美性生活一区二区三区 | 一区二区在线免费播放 | 99re视频在线 | 国产农村妇女毛片精品久久麻豆 | 美人の美乳で授乳プレイ | 国产高清在线视频 | 国产成人精品a视频一区www | 欧美成人在线影院 |