五種圖像標注的簡介
譯文【51CTO.com快譯】您是否曾被要求在圖像中尋找針對不同圖形區域的標注類信息?在如今人工智能(AI)和機器學習(ML)盛行的環境中,各類AI開發人員和研究人員為了實現其項目的目標,需要訪問大量具有高質量的數據。同時,隨著“數據為王”的概念已深入人心,可以說,“沒有數據,就不會有所謂的數據科學。”目前,機器學習的一個主要應用領域,便是需要在計算機視覺(computer vision)中,對大量的圖像進行標注,使之成為實用的圖像數據。
本文將從如下方面和您討論圖像標注的相關概念與類型:
- 什么是計算機視覺?
- 什么是圖像標注?
- 2D邊界框(Bounding Boxes)
- 3D邊界框/長方體(Cuboids)
- 多邊形(Polygons)
- 線和樣條線(Lines and Splines)
- 語義分割(Semantic Segmentation)
什么是計算機視覺?
作為AI研究和開發的一個重要領域,計算機視覺旨在使計算機能夠“看到”并解釋所處的環境和狀態。從自動駕駛汽車,到無人機勘察,再到醫療診斷,以及面部識別與辨認等場景,計算機視覺在實際應用領域發揮著巨大的作用。
為了成功地模仿或超越人類的視覺功能,計算機視覺在對目標設備進行開發和處理的過程中,需要通過對大量模型的訓練,實現對圖像的標注。
什么是圖像標注?
圖像標注是一個將標簽添加到圖像上的過程。其目標范圍既可以是在整個圖像上僅使用一個標簽,也可以是在某個圖像內的各組像素中配上多個標簽。一個簡單的例子是:我們在向幼兒提供各種動物的電子圖像時,可以通過將正確的動物名稱標記到每個圖像上,以方便幼兒在點觸圖像時能夠獲悉其名稱。當然,具體標注的方法取決于實際項目所使用到的圖像標注類型。有時候,我們可以將那些通過地圖APP采集的地面實況數據(ground truth data),作為帶標注的圖像,饋入計算機視覺的對應算法。通過反復訓練,模型便可以將已標注的實體與那些未標注的圖像區分開來。
最常見的圖像標注類型
上述示例非常簡單,我們在諸如汽車自動駕駛等領域,則會用到更加復雜的圖像標注和計算機視覺技術。那么,我們該如何知道哪一種圖像標注類型更適合自己手頭的項目呢?下面我將向您介紹五種常見的圖像標注類型,及其相關應用。
1.2D邊界框
2D邊界框標注是指:為那些人類標注器(human annotator)提供圖像,并負責在圖像中的某些對象周圍繪制框。該邊框應盡可能地靠近對象的每個邊緣。此項工作通常是在不同公司的自定義平臺上完成的。如果某個項目有著獨特的要求,那么服務公司則可以通過調整其現有平臺,以符合此類需求。
邊界框的一種典型應用是針對汽車自動駕駛的開發。標注器需要在捕獲到的交通圖像內識別車輛、行人和騎車人等實體,并在其周圍繪制邊界框。因此,開發人員通過為機器學習模型提供帶有邊界框標注的圖像,以幫助正在進行自動駕駛的車輛,實時地區分出各類實體,并避免觸碰到它們。
2.3D長方體
與邊界框非常相似,3D長方體標注是在立體圖像中的識別對象,并在其周圍繪制邊框。與僅描繪長和寬的2D邊界框不同,3D長方體則標注了對象的長、寬和近似深度。
使用3D長方體標注,人類標注器可以繪制一個框,將感興趣的對象封裝起來,并將錨點(anchor points)放置在對象的每個邊緣。如果對象的一個邊緣不可見、或被圖像中的另一個對象所遮擋,那么標注器就會根據該對象的大小、高度、以及圖像的角度,來估算其邊緣的位置。
3.多邊形
有時候,圖像中的對象由于光照或角度等原因,其形狀、大小或方向無法被很好地適配上2D邊界框或3D長方體。同時,開發人員希望對圖像中的對象,進行更加精確的標注,例如:交通圖像中的汽車、空中圖像中的地標性建筑物等。在這些情況下,我們可能需要選擇多邊形進行標注。
在使用多邊形時,標注器會通過在需要標注的對象的外邊緣,放置許多個點來繪制成線。這個過程有點類似我們小時候玩過的“連點成線,勾勒輪廓”的練習。在此基礎上,我們使用一組預定的實體類別(例如:汽車、自行車、卡車),對由這些點和線所包圍的區域內的空間進行標注。此外,當我們分配了多個類別時,它們就被稱為多類標注(multi-class annotation)。
4.線和樣條線
盡管線和樣條線可以被用于多種用途,但它們在此主要被用于訓練駕駛系統,以識別車道及其邊界。顧名思義,標注器將會簡單地沿著既定的機器學習方式,去繪制出邊界線。通過標注出車行道和人行道,它能夠訓練自動駕駛系統,了解所處的邊界,并保持在某條車道內,以避免壓線或轉向行駛。
此外,線和樣條線也可以被用于訓練倉庫里的機器人,讓它們能夠整齊地將箱子挨個擺放,或是將物品準確地放置到傳送帶上。
5.語義分割
和上述主要著眼于繪制對象的外部邊緣(或邊界)分類不同,語義分割要更加精確和具體一些。它是一個將整個圖像中的每個像素與標簽相關聯的過程。在需要用到語義分割的項目中,我們通常會為人類標注器提供一系列預定義的標簽,以便它能夠從中選擇需要標記的內容。
語義分割使用的是和多邊形標注類似的平臺,能夠讓標注器在需要標記的一組像素周圍繪制線條。當然,這些操作可以在AI輔助平臺上完成,例如,處理程序雖然可以近似地繪制出汽車的輪廓邊界,但是為了避免錯誤,需要在分割過程中剔除掉汽車下方的陰影部分。
在實際應用中,標注器一旦接收到自動駕駛的訓練數據,就需要按照道路、建筑物、騎車人、行人、障礙物、樹木、人行道、以及車輛等,對圖像中的所有內容,進行分類分割。而且,人類標注器會使用單獨的工具,裁剪掉不屬于主體的像素。
語義分割的另一個常見應用場景是醫學成像。針對提供過來的患者照片,標注器將從解剖學角度對不同的身體部位,打上正確的部位名稱標簽。因此,語義分割可以被用于處理諸如“在CT掃描圖像中標記腦部病變”,之類難度較大的特殊任務。
原標題:An Introduction to 5 Types of Image Annotation ,作者:Limarc Ambalina
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】