成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

90%論文都是以模型為中心,AI領域,數據和模型到底哪個重要?

人工智能 機器學習 新聞
在機器學習領域,數據重要還是模型重要?這是一個很難回答的問題。

模型和數據是 AI 系統的基礎,這兩個組件在模型的開發中扮演著重要的角色。

人工智能領域最權威的學者之一吳恩達曾提出「80% 的數據 + 20% 的模型 = 更好的機器學習」,他認為一個團隊研究 80% 的工作應該放在數據準備上,數據質量是重要的,但很少有人在乎。如果更多地強調以數據為中心而不是以模型為中心,機器學習會發展的更快。

我們不禁會問,機器學習的進步是模型帶來的還是數據帶來的,目前還沒有一個明確的答案。

在本文中,Android 開發者和機器學習愛好者 Harshil Patel 介紹了「機器學習:以數據為中心 VS 以模型為中心」,通過對比以確定兩者中哪個更重要,此外,Patel 還介紹了如何使用以數據為中心的基礎設施。


以數據為中心的方法 VS 以模型為中心的方法

以模型為中心的方法意味著需要通過實驗來提高機器學習模型性能,這涉及模型架構的選擇、訓練過程。而在以模型為中心的方法中,你需要保持數據相同,通過改進代碼和模型架構來提高性能。此外,對代碼的改進是以模型為中心的根本目標。

目前,大多數 AI 應用都是以模型為中心的,其中一個可能的原因是學術研究非常重視 AI 領域。根據吳恩達的說法,AI 領域 90% 以上的研究論文都是以模型為中心的,因為我們很難創建大型數據集,使其成為公認的標準。因此,AI 社區認為以模型為中心的機器學習更有前景。研究者在專注于模型的同時,往往會忽略數據的重要性。

對于研究者而言,數據是每個決策過程的核心,以數據為中心的公司通過使用其運營產生的信息,可以獲得更準確、更有條理、更透明的結果,從而可以幫助公司組織更順利地運行。以數據為中心的方法涉及系統地改進、改進數據集,以提高 ML 應用程序的準確性,對數據進行處理是以數據為中心的中心目標。

數據驅動 VS 以數據為中心

許多人經常混淆「以數據為中心」和「數據驅動」這兩個概念。數據驅動是一種從數據中收集、分析和提取見解的方法,它有時被稱為「分析」。另一方面,以數據為中心的方法側重于使用數據來定義應該首先創建的內容;而以數據為中心的架構指的是一個系統,其中數據是主要和永久的資產。數據驅動架構意味著通過利用大量數據來創建技術、技能和環境。

對于數據科學家和機器學習工程師來說,以模型為中心的方法似乎更受歡迎。這是因為從業者可以利用自身知識儲備來解決特定問題。另一方面,沒有人愿意花大量時間去標注數據。

然而,在當今的機器學習中,數據至關重要,但在 AI 發展中卻經常被忽視和處理不當。由于數據錯誤,研究者可能花費大量時間進行查錯。模型精度較低的根本原因可能不是來自模型本身,而是來自錯誤的數據集。

除了關注數據外,模型和代碼也很重要。但研究者往往傾向于在關注模型的同時忽略數據的重要性。最好的方法是同時關注數據和模型的混合方法。根據應用程序的不同,研究者應該兼顧數據和模型。

以數據為中心的基礎架構

以模型為中心的機器學習系統主要關注模型架構優化及其參數優化。

以模型為中心的 ML 應用程序

上圖中描述的是以模型為中心的工作流適用于少數行業,如媒體、廣告、醫療保健或制造業。但也可能面臨如下挑戰:

  • 需要高級定制系統:不同于媒體和廣告行業,許多企業無法使用單一的機器學習系統來檢測其產品的生產故障。雖然媒體公司可以負擔得起有一個完整的 ML 部門來處理優化問題,但需要多個 ML 解決方案的制造企業不能按照這樣的模板進行實施;
  • 大型數據集的重要性:在大多數情況下,公司沒有大量數據可供使用。相反,他們經常被迫處理微小的數據集,如果他們的方法是以模型為中心的,那么這些數據集很容易產生令人失望的結果。

吳恩達曾在他的 AI 演講中解釋了他如何相信以數據為中心的 ML 更有價值,并倡導社區朝著以數據為中心的方向發展。他曾經舉了一個「鋼鐵缺陷檢測」的例子,其中以模型為中心的方法未能提高模型的準確率,而以數據為中心的方法將準確率提高了 16%。

以數據為中心的 ML 應用程序

在實施以數據為中心的架構時,可以將數據視為比應用程序和基礎架構更耐用的基本資產。以數據為中心的 ML 使數據共享和移動變得簡單。那么,在以數據為中心的機器學習到底涉及什么?在實現以數據為中心的方法時,我們應該考慮以下因素:

  • 數據標簽質量:當大量的圖像被錯誤標記時,會出現意想不到的錯誤,因此需要提高數據標注質量;
  • 數據增強:讓有限的數據產生更多的數據,增加訓練樣本的數量以及多樣性(噪聲數據),提升模型穩健性;
  • 特征工程:通過改變輸入數據、先驗知識或算法向模型添加特征,常被用于機器學習,以幫助提高預測模型的準確性;
  • 數據版本控制:開發人員通過比較兩個版本來跟蹤錯誤并查看沒有意義的內容,數據版本控制是維護數據中最不可或缺的步驟之一,它可以幫助研究者跟蹤數據集的更改(添加和刪除),版本控制使代碼協作和數據集管理變得更加容易;
  • 領域知識:在以數據為中心的方法中,領域知識非常有價值。領域專家通常可以檢測到 ML 工程師、數據科學家和標注人員無法檢測到的細微差異,ML 系統中仍然缺少涉及領域專家的內容。如果有額外的領域知識可用,ML 系統可能會表現得更好。

應該優先考慮哪一個:數據數量還是數據質量?

需要強調的是,數據量多并不等同于數據質量好。當然,訓練神經網絡不能只用幾張圖就能完成,數據數量是一個方面,但現在的重點是質量而不是數量。

如上圖所示,大多數 Kaggle 數據集并沒有那么大。在以數據為中心的方法中,數據集的大小并不那么重要,并且可以使用質量較小的數據集完成更多的工作。不過需要注意的是,數據質量高且標注正確。

上圖中是另一種標注數據的方式,單獨或組合標注。例如,如果數據科學家 1 單獨標注菠蘿,而數據科學家 2 將其組合標注,則兩者標注的數據不兼容,導致學習算法變得混亂。因此,需要將數據標簽保持一致;如果需要單獨標注,請確保所有標注都以相同的方式進行。

上圖為吳恩達解釋了小數據集一致性的重要性

到底需要多少數據?

數據質量不可忽視,但數據量也是至關重要的,研究者必須有足夠的數據支撐才能解決問題。深度網絡具有低偏差、高方差特性,我們可以預見更多的數據可以解決方差問題。但是多少數據才夠呢?目前這個問題還很難回答,不過我們可以認為擁有大量的數據是一種優勢,但也不是必須的。

如果你采用以數據為中心的方法,請記住以下幾點:

  • 確保在整個 ML 項目周期中數據保持一致;
  • 數據標注保持一致;
  • 要及時反饋結果;
  • 進行錯誤分析;
  • 消除噪聲樣本。

那么,我們哪里可以找到高質量的數據集?這里推薦幾個網站,首先是 Kaggle:在 Kaggle 中,你會找到進行數據科學工作所需的所有代碼和數據,Kaggle 擁有超過 50,000 個公共數據集和 400,000 個公共 notebook,可以快速完成任務。

其次是 Datahub.io:Datahub 是一個主要專注于商業和金融的數據集平臺。許多數據集,例如國家、人口和地理邊界列表,目前在 DataHub 上可用。

最后是 Graviti Open Datasets:Graviti 是一個新的數據平臺,主要為計算機視覺提供高質量的數據集。個人開發人員或組織可以輕松訪問、共享和更好地管理開放數據。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-31 14:33:49

人工智能數據開發自然語言

2025-03-28 09:46:05

AI算法AI人工智能

2024-01-31 09:00:12

人工智能數據模型

2022-08-17 15:41:08

AI機器學習

2021-07-30 13:35:43

共享內存 Actor

2023-04-23 08:00:00

人工智能ChatGPTGPT模型

2021-07-14 10:09:05

架構模型數據

2012-07-06 13:31:05

EVB虛擬化數據中心

2024-04-23 07:52:25

2023-11-16 16:37:02

2021-01-15 13:18:39

數據模型領域模型代碼

2021-01-27 10:32:42

AI機器學習數據中心

2018-08-27 08:13:18

人工智能教育AI

2023-11-27 12:24:23

算法模型業務模型

2023-05-22 09:22:41

論文CV

2023-12-20 13:34:56

2021-08-16 20:45:52

AI人工智能

2023-10-30 09:42:29

自動駕駛模型

2023-05-29 08:00:00

ChatGPT人工智能機器學習

2022-08-12 15:41:11

神經網絡架構
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久国产精品午夜一区 | 超碰97人人人人人蜜桃 | 五月天婷婷久久 | 毛片一区二区 | 亚洲成人av | 日韩一区二区在线视频 | 人人澡视频| 国产视频一区二区三区四区五区 | 久久国产精品一区二区 | 97人人超碰 | 国产一区二区久久 | 国产免费一区二区三区 | 久久久久久看片 | 亚洲一二三区精品 | 99精品免费久久久久久久久日本 | 欧美成人自拍视频 | 亚洲一区自拍 | 国产精品久久久久久久午夜 | 亚洲视频国产视频 | 成人精品国产免费网站 | 久草视频网站 | 午夜亚洲 | 日韩中文字幕一区二区 | 99久久亚洲 | 美人の美乳で授乳プレイ | 欧美在线一区二区三区 | 超碰3| 久久成人国产精品 | 浴室洗澡偷拍一区二区 | 日韩和的一区二区 | 亚洲国产精品一区二区三区 | 亚洲最大成人综合 | 亚洲视频中文字幕 | 中文字幕1区| 午夜精品视频一区 | 男女久久久 | 日韩av在线一区二区三区 | 国产精品视频一二三区 | 亚洲精品美女视频 | 日韩精品成人 | 久久久久九九九女人毛片 |