人工智能，“拋棄”真實數據集？

作者：學術頭條 2022-03-30 14:30:34

近日，一項來自麻省理工學院（MIT）科研團隊的研究顯示，一種使用合成數據訓練的圖像分類機器學習模型，可以與使用真實數據來訓練的模型相媲美，甚至性能更好。

當前，人工智能技術已經應用在我們日常生活中的方方面面，比如人臉識別、語音識別、虛擬數字人等。

但普遍存在的一個問題是，科研人員要想通過訓練一個機器學習模型來執行某一特定任務（比如圖像分類），往往需要使用大量的訓練數據，而這些數據（集）卻并不總是很容易獲得。

比如，如果研究人員正在訓練一輛自動駕駛汽車的計算機視覺模型，但真實數據可能不會包含一個人和他的一條狗在高速公路上奔跑的樣本，一旦遇到這種情況，模型就不知道該如何做，可能會產生不必要的后果。

而且，使用已有數據生成數據集，也會花費數百萬美元。

另外，即使是最好的數據集，也常常包含對模型性能產生負面影響的偏見。

那么，既然獲得、使用一個數據集代價這么昂貴，能不能在保證模型性能的前提下，使用人為合成的數據來訓練呢？

相關研究論文以“ Generative models as a data source for multiview representation learning ”為題，以會議論文的形式發表在 ICLR 2022 上。

這種特殊的機器學習模型被稱為生成模型（generative model），相比于數據集，存儲或共享所需的內存要少得多，不僅可以避免一些關于隱私和使用權的問題，也不存在傳統數據集中存在的一些偏見和種族或性別問題。

據論文描述，在訓練過程中，生成模型首先會獲取數百萬張包含特定對象（比如汽車或貓咪）的圖像，然后學習汽車或貓咪的外觀，最后生成類似的對象。

簡單來說就是，研究人員使用一個預先訓練的生成模型，參照模型訓練數據集上的圖像，輸出大量獨特的、真實的圖像流。

（來源： Pixabay）

研究人員表示，一旦生成模型在真實數據上進行訓練，就可以生成幾乎與真實數據無法區分的合成數據。

另外，生成模型還可以基于訓練數據做進一步拓展。

如果生成模型是基于汽車圖像進行訓練的，它就可以“想象”出汽車在不同情況下是什么樣的，然后輸出具有不同顏色、大小和狀態的汽車圖像。

生成模型具備很多優點，其中之一便是，它在理論上可以創建無限數量的樣本。

基于此，研究人員試圖搞清楚樣本數量如何影響模型性能。結果顯示，在某些情況下，大量的獨特樣本確實會帶來額外的改進。

而且，在他們看來，生成模式最酷的一點在于，我們可以在在線資料庫中找到并使用它們，而且不需要干預模型就可以獲得良好的表現。

但生成模型也有一些缺點。例如，在某些情況下，生成模型可能會揭示源數據，從而帶來隱私風險，如果沒有進行適當的審計，可能會放大它們所訓練數據集中的偏差。

有效數據的稀缺性，以及采樣偏差，已經成為機器學習發展的關鍵瓶頸。

近年來，為解決這一問題，生成式 AI（Generative AI）成為了人工智能領域的熱議話題之一，被業內給予了足夠高的期待。

去年底，Gartner 發布了 2022 年重要戰略技術趨勢，將生成式 AI 稱為是“最引人注目和最強大的人工智能技術之一”。

據 Gartner 預測，預計到 2025 年，生成式 AI 將占所有生成數據的 10%，而目前這一比例還不到 1%。

圖｜Gartner 2022 年重要戰略技術趨勢（來源： Gartner 官網）

2020 年，生成式 AI 作為一個新增技術熱點，在 Gartner 發布的“Hype Cycle for Artificial Intelligence，2020”中首次被提出。

在最新的“Hype Cycle for Artificial Intelligence，2021”報告中，生成式 AI 作為 2-5 年即可成熟的技術出現。

（來源： Gartner Hype Cycle for Artificial Intelligence, 2021）

生成式 AI 的突破在于，它可以從現有數據（圖像、文本等）中學習，并生成全新、相似的原始數據。也就是說，它不僅可以做出判斷，還能夠進行創造，可以用于自動編程、藥物開發、視覺藝術、社交、商業服務等。

但是，生成式 AI 也會被濫用于詐騙、欺詐、政治造謠、偽造身份等，比如經常產生各種負面新聞的 Deepfake。

那么問題來了，如果我們有足夠好的生成模型，還需要真實的數據集嗎？

責任編輯：張燕妮來源：學術頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看