準備YOLO訓練數據:數據標注技術和優秀實踐
如果你已經對YOLO目標檢測算法有了基本的了解,并且可能迫不及待地想在你的項目中嘗試它。成功的關鍵是一個定制的訓練數據集。
量身定制的數據集對于開發高精度、高效的YOLO模型至關重要,這些模型滿足你的特定用例需求。通過標注你自己的數據,你確保模型學習識別與你領域相關的對象,無論是在道路上檢測車輛、識別傳送帶上的產品,還是在建筑工地上發現安全隱患。
在這篇文章中,我們將指導你如何準備用于訓練YOLO模型的標注數據,從在圖像中標記對象到組織你的數據集。
YOLO 訓練的數據準備
記住,一個準備充分的標注數據集不僅提高了模型的性能,還減少了訓練所需的時間和資源。數據準備過程可以分為四個步驟:
- 數據收集:收集一個大型、多樣化的圖像數據集,代表你希望模型檢測的所有類別。你可以使用像COCO和Pascal VOC這樣的公共數據集,或者收集你自己的定制數據。
- 數據標注:每張圖像都需要YOLO格式的標注,包括每個對象的類別和位置(通常是邊界框)。標注的準確性直接影響模型性能。
- 標注格式轉換:YOLO需要特定格式的標注。每張圖像都有一個.txt文件,列出所有對象及其類別和邊界框信息。邊界框的格式如下:
<object-class> <x_center> <y_center> <width> <height>
坐標是相對于圖像尺寸歸一化的。<object-class> 是類別索引。
- 數據集分割:將數據集分割為訓練集、驗證集和測試集。這對于避免過擬合并評估模型性能至關重要。典型的分割比例是70%訓練,15%驗證,15%測試。
YOLO 的數據標注
現在,讓我們逐步了解數據標注過程,為YOLO訓練準備數據集。首先,選擇一個標注工具。開源和基于云的工具都可以工作,但在線版本對于團隊來說往往更高效。我們將以BasicAI Cloud為例,這是目標檢測研究的流行選擇。無需安裝;只需在https://app.basic.ai. 注冊一個免費賬戶即可。
我們已經收集了一個用于海龜檢測的數據集。沒有標注,模型無法學習,所以讓我們開始標注。
1.上傳數據
在BasicAI Cloud UI上,轉到“Datasets”,點擊“+Create”,選擇“Image”類型,命名你的數據集,然后點擊“Create”。
在預覽界面中,點擊藍色“+Upload”按鈕。你可以通過本地文件、URL或云存儲上傳。這里,我們從本地地址上傳。
2.創建本體
讓我們創建一個“Turtle”本體類別。轉到“Ontology”標簽頁,點擊“+Create”。選擇邊界框類型,命名它,并設置框顏色。
3.標注數據
回到“Data”標簽頁,選擇所有數據,然后點擊“Annotate”。
標注工具在左側,類別在右側。
選擇“Bounding Box Tool”(快捷鍵‘1’)。光標變成十字準線。
提示:預先選擇類別,以便自動將其分配給新框。非常適合多目標檢測。
點擊對象的一個角,然后點擊對角,創建一個框。使用箭頭工具調整邊緣。
詳情可以參考:https://video.wixstatic.com/video/4b3c31_95a85dde75de4bbf83e616098f9b73b1/720p/mp4/file.mp4
提示:在“Display setting”中啟用“Measure Line”以獲得輔助線。
使用這種方法在所有圖像中標注對象。完成后點擊“Save”并退出。
“Preview Annotateions”顯示結果。
導出數據點擊“Export”以創建導出任務。
在“Annotation Format”下,選擇YOLO的TXT格式。點擊“Create”。
準備好后下載結果。
每個文件都包含訓練所需的信息。在這里,系統自動將“0”分配給單個標簽。
項目結構像YOLO v7一樣組織項目,因為其結構與v9非常相似。
為什么選擇BasicAI Cloud進行YOLO數據標注?BasicAI Cloud是一個全面的智能數據標注解決方案,它與你的YOLO工作流程無縫集成,使標注過程高效且協作。
- 全面功能:BasicAI Cloud支持所有數據類型,包括圖像、視頻、激光雷達融合、音頻和文本。模型輔助工具支持自動預標注(實例標注、語義分割、語音識別)和交互式標注。
- 為團隊協作而建:可擴展的項目管理,將外部團隊和模型集成到自定義工作流程中??焖倥糠峙錁俗⑷蝿?。自定義實時QA快速捕捉質量問題。提供了詳細的績效報告。
- 數據集管理:上傳預標注數據進行微調。視頻幀提取和連續幀分割/合并。云存儲集成。
- 成本:免費賬戶幾乎具有全部功能——5個座位,200GB存儲,10,000個免費自動標簽。
它們非常適合小型研究團隊,并且對于大型團隊來說價格具有競爭力。提供企業級本地部署。通過利用BasicAI Cloud滿足你的YOLO數據標注需求,你可以簡化準備高質量標注數據的過程,與你的團隊有效協作,并輕松管理你的數據集。這個強大的平臺使你能夠專注于開發準確高效的YOLO目標檢測模型,同時最小化花在數據標注上的時間和精力。