五種圖像標注的簡介

作者：陳峻譯 2020-09-10 07:00:00

我們在諸如汽車自動駕駛等領域，需要用到復雜的圖像標注和計算機視覺技術。那么，我們該如何知道哪一種圖像標注類型更適合手頭的項目呢？本文將向您介紹五種常見的圖像標注類型，及其相關應用。

【51CTO.com快譯】您是否曾被要求在圖像中尋找針對不同圖形區域的標注類信息?在如今人工智能(AI)和機器學習(ML)盛行的環境中，各類AI開發人員和研究人員為了實現其項目的目標，需要訪問大量具有高質量的數據。同時，隨著“數據為王”的概念已深入人心，可以說，“沒有數據，就不會有所謂的數據科學。”目前，機器學習的一個主要應用領域，便是需要在計算機視覺(computer vision)中，對大量的圖像進行標注，使之成為實用的圖像數據。

本文將從如下方面和您討論圖像標注的相關概念與類型：

什么是計算機視覺?
什么是圖像標注?
2D邊界框(Bounding Boxes)
3D邊界框/長方體(Cuboids)
多邊形(Polygons)
線和樣條線(Lines and Splines)
語義分割(Semantic Segmentation)

什么是計算機視覺?

作為AI研究和開發的一個重要領域，計算機視覺旨在使計算機能夠“看到”并解釋所處的環境和狀態。從自動駕駛汽車，到無人機勘察，再到醫療診斷，以及面部識別與辨認等場景，計算機視覺在實際應用領域發揮著巨大的作用。

為了成功地模仿或超越人類的視覺功能，計算機視覺在對目標設備進行開發和處理的過程中，需要通過對大量模型的訓練，實現對圖像的標注。

什么是圖像標注?

圖像標注是一個將標簽添加到圖像上的過程。其目標范圍既可以是在整個圖像上僅使用一個標簽，也可以是在某個圖像內的各組像素中配上多個標簽。一個簡單的例子是：我們在向幼兒提供各種動物的電子圖像時，可以通過將正確的動物名稱標記到每個圖像上，以方便幼兒在點觸圖像時能夠獲悉其名稱。當然，具體標注的方法取決于實際項目所使用到的圖像標注類型。有時候，我們可以將那些通過地圖APP采集的地面實況數據(ground truth data)，作為帶標注的圖像，饋入計算機視覺的對應算法。通過反復訓練，模型便可以將已標注的實體與那些未標注的圖像區分開來。

最常見的圖像標注類型

上述示例非常簡單，我們在諸如汽車自動駕駛等領域，則會用到更加復雜的圖像標注和計算機視覺技術。那么，我們該如何知道哪一種圖像標注類型更適合自己手頭的項目呢?下面我將向您介紹五種常見的圖像標注類型，及其相關應用。

1.2D邊界框

2D邊界框標注是指：為那些人類標注器(human annotator)提供圖像，并負責在圖像中的某些對象周圍繪制框。該邊框應盡可能地靠近對象的每個邊緣。此項工作通常是在不同公司的自定義平臺上完成的。如果某個項目有著獨特的要求，那么服務公司則可以通過調整其現有平臺，以符合此類需求。

邊界框的一種典型應用是針對汽車自動駕駛的開發。標注器需要在捕獲到的交通圖像內識別車輛、行人和騎車人等實體，并在其周圍繪制邊界框。因此，開發人員通過為機器學習模型提供帶有邊界框標注的圖像，以幫助正在進行自動駕駛的車輛，實時地區分出各類實體，并避免觸碰到它們。

2.3D長方體

與邊界框非常相似，3D長方體標注是在立體圖像中的識別對象，并在其周圍繪制邊框。與僅描繪長和寬的2D邊界框不同，3D長方體則標注了對象的長、寬和近似深度。

使用3D長方體標注，人類標注器可以繪制一個框，將感興趣的對象封裝起來，并將錨點(anchor points)放置在對象的每個邊緣。如果對象的一個邊緣不可見、或被圖像中的另一個對象所遮擋，那么標注器就會根據該對象的大小、高度、以及圖像的角度，來估算其邊緣的位置。

3.多邊形

有時候，圖像中的對象由于光照或角度等原因，其形狀、大小或方向無法被很好地適配上2D邊界框或3D長方體。同時，開發人員希望對圖像中的對象，進行更加精確的標注，例如：交通圖像中的汽車、空中圖像中的地標性建筑物等。在這些情況下，我們可能需要選擇多邊形進行標注。

在使用多邊形時，標注器會通過在需要標注的對象的外邊緣，放置許多個點來繪制成線。這個過程有點類似我們小時候玩過的“連點成線，勾勒輪廓”的練習。在此基礎上，我們使用一組預定的實體類別(例如：汽車、自行車、卡車)，對由這些點和線所包圍的區域內的空間進行標注。此外，當我們分配了多個類別時，它們就被稱為多類標注(multi-class annotation)。

4.線和樣條線

盡管線和樣條線可以被用于多種用途，但它們在此主要被用于訓練駕駛系統，以識別車道及其邊界。顧名思義，標注器將會簡單地沿著既定的機器學習方式，去繪制出邊界線。通過標注出車行道和人行道，它能夠訓練自動駕駛系統，了解所處的邊界，并保持在某條車道內，以避免壓線或轉向行駛。

此外，線和樣條線也可以被用于訓練倉庫里的機器人，讓它們能夠整齊地將箱子挨個擺放，或是將物品準確地放置到傳送帶上。

5.語義分割

和上述主要著眼于繪制對象的外部邊緣(或邊界)分類不同，語義分割要更加精確和具體一些。它是一個將整個圖像中的每個像素與標簽相關聯的過程。在需要用到語義分割的項目中，我們通常會為人類標注器提供一系列預定義的標簽，以便它能夠從中選擇需要標記的內容。

語義分割使用的是和多邊形標注類似的平臺，能夠讓標注器在需要標記的一組像素周圍繪制線條。當然，這些操作可以在AI輔助平臺上完成，例如，處理程序雖然可以近似地繪制出汽車的輪廓邊界，但是為了避免錯誤，需要在分割過程中剔除掉汽車下方的陰影部分。

在實際應用中，標注器一旦接收到自動駕駛的訓練數據，就需要按照道路、建筑物、騎車人、行人、障礙物、樹木、人行道、以及車輛等，對圖像中的所有內容，進行分類分割。而且，人類標注器會使用單獨的工具，裁剪掉不屬于主體的像素。

語義分割的另一個常見應用場景是醫學成像。針對提供過來的患者照片，標注器將從解剖學角度對不同的身體部位，打上正確的部位名稱標簽。因此，語義分割可以被用于處理諸如“在CT掃描圖像中標記腦部病變”，之類難度較大的特殊任務。

原標題：An Introduction to 5 Types of Image Annotation ，作者：Limarc Ambalina

【51CTO譯稿，合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯：龐桂玉來源： 51CTO

人工智能 AI 機器學習

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

五種圖像標注的簡介