成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度學習中圖片數據庫的網絡爬取與數據清洗

原創
新聞
隨著大量的訓練數據以及深度卷積神經網絡(CNN)的推動,人臉識別或者是其他物體識別幾乎比得上人的肉眼識別。利用一些獨有的大規模訓練數據集,一些研究團體在LFW或其他人臉數據集上取得了相當好的表現,達到了97%-99%的準確率。越來越多開源的卷積神經網絡框架已經不斷涌現出來,也有相應的很多人臉數據庫,包含了大量的人臉圖片數據。

51CTO學院IT課程1折起秒殺,12月12日0點萬人秒殺準時開啟,我是51CTO學院深度學習課程講師浦深,跟大家分享一些個人經驗。

在當前深度學習之下,隨著大量的訓練數據以及深度卷積神經網絡(CNN)的推動,人臉識別或者是其他物體識別幾乎比得上人的肉眼識別。利用一些獨有的大規模訓練數據集,一些研究團體在LFW或其他人臉數據集上取得了相當好的表現,達到了97%-99%的準確率。越來越多開源的卷積神經網絡框架已經不斷涌現出來,比如 Caffe、Theano、TensorFlow等,也有相應的很多人臉數據庫,比如WebFace、FDDB、YouTubeFace、MultiPIE等等,包含了大量的人臉圖片數據,情況看起來似乎很良好,卷積神經網絡框架有了,大規模數據也有了,加上各種物體檢測算法Rcnn、FastRcnn、FasterRcnn、Ssd等,仿佛可以不費吹灰之力訓練得到一個表現良好的模型,然而,事實并非如此,請看下圖:

我們從某個數據庫下載下來的,一個名為jack的個人圖片數據,可以看到,很多都不是同一個人的,當然,最重要的是這樣混亂的個人圖片文件夾還不在少數!這樣的訓練集是很難訓練出另一個好的模型的。所以,當下的情況是:深度學習工程應用領域,數據比算法更重要!!!

上圖所舉的例子是圖片質量比較差的情況,我們來看一個比較好的情況:

盡管說情況比較良好,但仍然夾雜著一些非本人的圖片數據。

往下,我們來看看圖片數據庫是如何產生的,以及如何處理大規模圖片數據集中的噪聲,比如:在一個***別的數據集中去掉像***張圖那樣混亂的個人數據文件夾、去除質量相對較好的個人圖片數據中非本人的圖片數據。

圖片數據庫的產生(以人臉數據為例)

人臉識別數據集只需要兩種數據:人臉圖片和身份標簽,隨機地從網絡上抓取圖片并且標注它們,是一個幾乎不可能的任務。我們這邊介紹一個結構非常良好的網站IMDb,這個網站包含了人物的信息,包括名字、年齡、性別、生日以及個人照片。我們來看下:

可以直接搜索人物名字,比如我們搜索Ben Foster ,結果如下所示:

結果中包含該人物的多種信息:人名、生日、個人圖片等等。你可以根據人名搜索每個人的數據,每個人物在網站上都有一個獨立的頁面,我們通過一個人臉檢測器,可以自己訓練一個淺層全卷積神經網絡來處理,這個淺層網絡的設計非常重要,因為在這個環節中,我們對圖片處理的速度要求是比較高的,具體的網絡設計及訓練可以參考我的視頻教程(http://edu.51cto.com/course/course_id-7650.html)通過這個人臉檢測器,把所有圖片中包含人臉的圖片收集到本地數據庫中。

這個階段的數據還不能夠用來訓練,我們需要標注每張人臉圖片所屬的人名。我們可以看到,有寫圖片當中包含的不僅僅一張人臉,也包含了不同人物的人臉,我們的任務是對每一張人臉進行標注并且要把這些非本人的人臉劃分到他們各自的文件夾里頭。這個該如何處理?看如下這張圖:

每張圖片底下都包含著每個人物的名字,我們可以根據這個標簽來進行處理,因為這個環節是對人名進行搜索,而每個人物的名字均來自于影片中的名字,極有可能出現同名不同人的情況,這也是造成我們獲取到的人臉數據庫質量不好的主要原因!

好了,問題出現總是需要解決的,我們要處理的問題有兩個:1.去掉混亂程度較高的人物及其數據;2.去掉圖片質量相對較好的圖片中非人臉數據以及非本人的人臉數據。

我們可以這樣來處理:在訓練好的經典的分類網絡,比如VGG,GOOGLENET等上進行微調訓練,這個環節中重點是訓練數據,數據來源可以選擇一些質量較好的人臉數據庫,加上適當的人工篩選效果更佳!那這個訓練的網絡作用是什么?是用來提取每張圖片的特征,對吧!每張圖片用一行向量去表示。那一張圖片該用多少維度的向量去表示?這邊的維度指的是:比如pic1=[1,2,3,4],指的是4個維度,即用4個數據來表示一張圖片,然而實際的工程應用當中,向量的維度應該取多少合適?假設我們已經取得一個合適的維度,也對應修改好了相應的訓練網絡,并且提取好了每張圖片的向量,對于***個要處理的問題(去掉圖片質量相對較好的圖片中非人臉數據以及非本人的人臉數據),因為圖片的質量較好,可以取這個人的所有圖片的向量的平均值來代表這個人物的特征,然后這個人的所有圖片的特征值跟其對應的平均值求距離,設置一個閾值,把跟平均特征值距離遠的圖片過濾掉即可!

然而對于第二個問題(去掉混亂程度較高的人物及其數據),由于圖片混亂程度相對較高,此時的平均特征值已經無法代表這個人了,此時,用解決上一個問題的方法已經不奏效了!!!該如何處理?

關于***種問題的處理方法在我的深度學習視頻課程里頭已經做了相應的講解與示例,包括特征的提取等基本操作均已詳細進行了說明。關于第二個問題的解決方案及其相應的算法編寫、工程經驗等都將會陸續在課程中進行補充!

我的課程是用Windows的版本進行演示,其實,不管是在Linux下或者Windows下,僅僅編譯的時候有些區別,而對于caffe的使用基本上是一致的,請大家放心,Windows下用VS2013的開發環境會更友好一些,比如在課程中我也將會帶大家一起修改caffe的源碼來滿足lmdb的多標簽輸入的要求,在Windows下顯得更方便,當然也可在Windows下更改后,再把工程拷貝到Linux下進行編譯。

歡迎大家報名學習我的視頻課程:http://edu.51cto.com/course/course_id-7650.html

 

責任編輯:龐桂玉 來源: 51CTO.com
相關推薦

2017-04-06 22:19:15

2016-04-12 17:12:29

機器學習數據清洗美團

2009-06-30 09:16:45

數據庫存儲JSP文件

2013-03-20 16:23:53

數據清洗

2011-07-21 17:29:42

iPhone Sqlite 數據庫

2019-04-04 09:00:00

網絡爬取庫與工具

2011-08-10 15:46:29

數據庫

2009-05-08 09:17:48

動態數據庫圖片

2011-05-13 13:38:49

數據庫對象

2017-07-25 15:21:42

數據挖掘深度學習模型

2011-08-11 17:00:33

iPhone數據庫SQLite

2010-08-18 13:49:01

DB2數據庫

2011-08-23 15:16:54

OracleMySQL

2009-07-16 09:48:29

數據庫連接

2010-05-21 10:01:11

MySQL數據庫

2009-07-31 13:52:26

ASP.NET數據庫圖

2011-07-01 10:03:52

QT 數據庫

2017-05-02 11:47:17

深度學習AI

2011-08-29 14:44:56

DBLINK

2011-08-30 12:59:52

Qt數據庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人h动漫亚洲一区二区 | 色视频欧美 | 91色在线| www.中文字幕av| 国产精品1区2区3区 欧美 中文字幕 | 欧洲精品久久久久毛片完整版 | 欧美中文一区 | 国产精品免费一区二区 | 久久中文字幕视频 | 盗摄精品av一区二区三区 | 91av在线免费播放 | 美女天天操 | 色网在线播放 | 91麻豆精品一区二区三区 | 成人av看片| 中文字幕在线精品 | 在线播放一区 | 欧美日韩国产一区二区三区 | 美女久久| 亚洲美女在线视频 | 免费观看的黄色网址 | 日日夜精品视频 | 久久久精品一区二区三区 | 久久精品视频9 | www.色53色.com | 国产精品乱码一二三区的特点 | 中文字幕成人av | 欧美一级片久久 | xxxxx免费视频 | 久久久久久久久久久久久久av | 国产美女一区 | 欧美激情精品久久久久 | 欧美福利视频 | 欧美一区二区免费 | 中文字幕在线看人 | 视频三区 | 91亚洲国产成人久久精品网站 | 国产一区二区三区四区五区加勒比 | 日韩综合网 | 亚洲国产精品va在线看黑人 | 国产欧美日韩一区 |