成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

怎么自定義一個數(shù)據(jù)集?自定義數(shù)據(jù)集面臨哪些問題? 原創(chuàng)

發(fā)布于 2025-3-11 10:08
瀏覽
0收藏

“ 在目前的神經(jīng)網(wǎng)絡(luò)應(yīng)用中,數(shù)據(jù)集是對大部分企業(yè)需要面臨的主要問題。”

數(shù)據(jù)集作為神經(jīng)網(wǎng)絡(luò)模型中的一個必要環(huán)節(jié),其重要性不言而喻;雖然網(wǎng)絡(luò)上有很多開源的數(shù)據(jù)集,但對很多場景來說需要自定義數(shù)據(jù)集才能滿足自身的需求。

從目前的大模型發(fā)展來看,大部分企業(yè)選擇在開源模型的基礎(chǔ)之上做訓(xùn)練和微調(diào)是比較好的選擇;而這時,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就不是主要的技術(shù)難點,反而是數(shù)據(jù)成為了很多企業(yè)的痛點,成為亟待解決的問題。

因此,怎么自定義一個數(shù)據(jù)集就成為很多人面臨的問題;自定義是一個復(fù)雜的問題,中間涉及到很多環(huán)節(jié);當(dāng)然除了那些數(shù)據(jù)處理的第三方公司之外,在業(yè)務(wù)場景中技術(shù)人員一般獲得的是經(jīng)過前期初步處理的數(shù)據(jù)。

這時需要做的就是把經(jīng)過初步處理的數(shù)據(jù)給統(tǒng)一化,結(jié)構(gòu)化。

自定義圖像數(shù)據(jù)集

自定義數(shù)據(jù)集是一個復(fù)雜且繁瑣的過程,包括前期的數(shù)據(jù)收集與整理;以及把整理之后的數(shù)據(jù)轉(zhuǎn)換成神經(jīng)網(wǎng)絡(luò)所需要的格式;而這也是數(shù)據(jù)集比較麻煩的一個地方。

自定義一個數(shù)據(jù)集需要哪些步驟? 自定義數(shù)據(jù)集大概需要經(jīng)過以下幾個步驟:

  • 確定任務(wù)目標(biāo)
  • 收集數(shù)據(jù)
  • 數(shù)據(jù)清洗
  • 數(shù)據(jù)標(biāo)注
  • 數(shù)據(jù)預(yù)處理
  • 劃分?jǐn)?shù)據(jù)集

1. 明確任務(wù)目標(biāo)

在創(chuàng)建數(shù)據(jù)集之前,首先需要明確任務(wù)的目標(biāo)和需求:

  • 是分類任務(wù)、回歸任務(wù)、目標(biāo)檢測任務(wù)還是圖像分割任務(wù)?
  • 需要哪些輸入特征和目標(biāo)變量?
  • 數(shù)據(jù)的形式是什么(如圖片、文本、表格數(shù)據(jù))?

2. 收集數(shù)據(jù)

根據(jù)任務(wù)目標(biāo),收集相關(guān)的數(shù)據(jù)。數(shù)據(jù)來源可以包括:

  • 公開數(shù)據(jù)集:如 Kaggle、UCI Machine Learning Repository、Google Dataset Search 等。
  • 內(nèi)部數(shù)據(jù):如公司數(shù)據(jù)庫、日志文件等。
  • 網(wǎng)絡(luò)爬蟲:從網(wǎng)頁中抓取數(shù)據(jù)(需注意合法性和道德問題)。
  • API:通過第三方 API 獲取數(shù)據(jù)(如 Twitter API、Google Maps API 等)。

怎么自定義一個數(shù)據(jù)集?自定義數(shù)據(jù)集面臨哪些問題?-AI.x社區(qū)

3. 數(shù)據(jù)清洗

數(shù)據(jù)清洗是確保數(shù)據(jù)質(zhì)量的關(guān)鍵步驟,主要包括:

  • 處理缺失值:刪除或填充缺失值。
  • 處理異常值:刪除或修正異常值。
  • 去除重復(fù)數(shù)據(jù):刪除重復(fù)的記錄。
  • 格式標(biāo)準(zhǔn)化:統(tǒng)一日期、時間、單位等格式。
  • 文本數(shù)據(jù)清洗:去除特殊字符、停用詞、HTML 標(biāo)簽等。

4. 數(shù)據(jù)標(biāo)注

如果任務(wù)需要監(jiān)督學(xué)習(xí),需要對數(shù)據(jù)進(jìn)行標(biāo)注:

  • 手動標(biāo)注:通過人工標(biāo)注數(shù)據(jù)。
  • 自動標(biāo)注:使用規(guī)則或預(yù)訓(xùn)練模型進(jìn)行自動標(biāo)注。
  • 眾包標(biāo)注:通過眾包平臺(如 Amazon Mechanical Turk)進(jìn)行標(biāo)注。

根據(jù)目錄標(biāo)注的螞蟻圖片:

怎么自定義一個數(shù)據(jù)集?自定義數(shù)據(jù)集面臨哪些問題?-AI.x社區(qū)

5. 數(shù)據(jù)預(yù)處理

對數(shù)據(jù)進(jìn)行預(yù)處理,以適應(yīng)模型的輸入要求:

  • 特征工程:從原始數(shù)據(jù)中提取有用的特征。
  • 歸一化/標(biāo)準(zhǔn)化:將數(shù)據(jù)縮放到相同的范圍。
  • 數(shù)據(jù)增強(qiáng):對數(shù)據(jù)進(jìn)行變換(如旋轉(zhuǎn)、翻轉(zhuǎn)、添加噪聲等),以增加數(shù)據(jù)多樣性。

怎么自定義一個數(shù)據(jù)集?自定義數(shù)據(jù)集面臨哪些問題?-AI.x社區(qū)

6. 劃分?jǐn)?shù)據(jù)集

將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集:

  • 訓(xùn)練集:用于訓(xùn)練模型。
  • 驗證集:用于調(diào)整超參數(shù)和評估模型性能。
  • 測試集:用于最終評估模型的泛化能力。

而在大部分情況下,在企業(yè)應(yīng)用中確認(rèn)任務(wù)目標(biāo)之后,很少有人真的會按照以上步驟處理數(shù)據(jù);特別是第二步和第四步。

一般情況下在,技術(shù)人員拿到的數(shù)據(jù)是經(jīng)過初步處理的;比如說標(biāo)注之后的數(shù)據(jù);而這時我們可能需要根據(jù)具體情況對數(shù)據(jù)再進(jìn)行一次清洗和進(jìn)一步的處理。

舉個具體的例子來說,假如你需要整理一個圖片數(shù)據(jù)集;這時你拿到的圖片數(shù)據(jù)可能是根據(jù)目錄標(biāo)注好的或者使用專門的標(biāo)注文檔標(biāo)注之后的數(shù)據(jù)。

但這時的數(shù)據(jù)可能面臨著圖片大小不一,格式不同(png,jpg),通道也不同(RGB是三通道,還有灰度的單通道);甚至可能其中夾雜著一些其它圖片,比如在狗狗的圖片目錄中夾雜著部分貓的圖片。

在正常情況下的數(shù)據(jù)處理中,我們應(yīng)該主要關(guān)注第一,三,五,六步;而這也是數(shù)據(jù)處理過程中必不可少的環(huán)節(jié);其中比較復(fù)雜的主要是三和五步,

# 使用PIL的Image把圖片處理成統(tǒng)一大小;當(dāng)然,這只是最簡單的變換方式,可能會導(dǎo)致圖片變形
def resize_image(img, target_size):    
  return img.resize(target_size, Image.Resampling.LANCZOS)



本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/hXbFZbUCo56YAxM0M2aRhw??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-3-11 10:08:09修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 999精品视频| 黄色电影在线免费观看 | 亚洲免费在线观看 | 成人免费精品视频 | 一区二区在线 | 久久精彩视频 | 欧美精品一区在线发布 | 国产精品久久久久不卡 | 国产亚洲成av人片在线观看桃 | 欧美v在线观看 | 久久久免费 | 九九热这里只有精品在线观看 | 国产女人与拘做受免费视频 | 国产欧美视频一区二区 | 一区二区三区四区电影视频在线观看 | 国产色在线 | 国产成人精品久久二区二区 | 国产精品爱久久久久久久 | av黄色在线播放 | 国产日韩精品在线 | 日本一区二区高清不卡 | 国产精品国产三级国产aⅴ中文 | 久久久91| 亚洲黄色一级毛片 | 国产成人精品午夜视频免费 | 精品国产精品三级精品av网址 | 欧美成人a | 国产免费一区 | 日本久久www成人免 成人久久久久 | 欧美日韩国产一区二区三区 | 国产伦精品一区二区三区在线 | 自拍偷拍第一页 | 美女操网站 | 在线免费观看a级片 | 日韩在线一区二区 | 一区二区免费在线观看 | 国产欧美一区二区精品忘忧草 | 亚洲视频二区 | 中文区中文字幕免费看 | 精品久久香蕉国产线看观看亚洲 | 在线日韩欧美 |