人臉識(shí)別作為深度學(xué)習(xí)最具代表性的技術(shù)之一,近年來(lái)得到了飛速的發(fā)展,無(wú)論是在精度、速度和規(guī)模上都有了極大的提高。在取得如此巨大成功的同時(shí),科學(xué)家們將目光轉(zhuǎn)向了一個(gè)尚未充分探索的領(lǐng)域——卡通人臉識(shí)別,即將卡通動(dòng)畫作品中的人臉進(jìn)行準(zhǔn)確的檢測(cè)和識(shí)別。
隨著數(shù)字技術(shù)和新媒體技術(shù)的快速發(fā)展我們的生活中出現(xiàn)了越來(lái)越多的卡通化人物,它們不僅成為了孩子們認(rèn)識(shí)世界的窗口,更提供了教學(xué)輔助和科研傳播的功能,甚至用于描述個(gè)人觀點(diǎn)甚至傳播社會(huì)思想。與標(biāo)準(zhǔn)的繪畫作品相比,卡通、漫畫、幽默作品以一種十分夸張的方式來(lái)表現(xiàn),并導(dǎo)致了人臉的大幅形變和特征轉(zhuǎn)移。對(duì)于卡通人臉的檢測(cè)在動(dòng)畫行業(yè)中的需求也日漸增加,主要包括:通過(guò)圖像搜索引擎在網(wǎng)絡(luò)中搜索相似的卡通圖像;通過(guò)識(shí)別和語(yǔ)音合成幫助視覺(jué)障礙認(rèn)識(shí)享受卡通電影的樂(lè)趣;同時(shí)還能作為內(nèi)容控制和審查軟件的一部分來(lái)對(duì)社交媒體的內(nèi)容進(jìn)行處理。
為了實(shí)現(xiàn)這一目標(biāo),研究人員們利用了IIIT-CFW卡通數(shù)據(jù)集作為燃料,基于深度學(xué)習(xí)實(shí)現(xiàn)了卡通人臉檢測(cè)、識(shí)別工作,并超過(guò)了傳統(tǒng)的方法達(dá)到了優(yōu)秀的檢測(cè)效果。
這一數(shù)據(jù)集中包含了8928張帶標(biāo)記的卡通人臉圖像,其中不僅包含了不同年齡、性別、情感的基本人臉數(shù)據(jù),同時(shí)還包括各個(gè)人種、人臉位置以及諷刺隱喻等高維度信息,其標(biāo)注信息示例如下,包括了七個(gè)特征維度和包括角色名字的五個(gè)人臉位置維度信息:
Face Annotation
作者對(duì)于卡通人臉主要進(jìn)行了三個(gè)方面的工作:人臉檢測(cè)、人臉識(shí)別和性別檢測(cè),并在檢測(cè)的過(guò)程中對(duì)卡通人臉的關(guān)鍵點(diǎn)進(jìn)行了識(shí)別和抽取。
對(duì)于人臉檢測(cè),研究人員們主要使用了MTCNN(Multi-task Cascaded Convolutional Network)網(wǎng)絡(luò),這一架構(gòu)包含三個(gè)主要的部分分別是通過(guò)圖像金字塔提出候選框的建議網(wǎng)絡(luò)P-Net、隨后是用于提煉優(yōu)化結(jié)果的精煉網(wǎng)絡(luò)R-Net,最后是用于生成最終人臉框和五個(gè)標(biāo)志結(jié)果的輸出網(wǎng)絡(luò)O-Net。
對(duì)于人臉識(shí)別工作,研究人員們提出兩種方式,第一種是利用Inceptionv3+SVM來(lái)進(jìn)行識(shí)別,首先利用Inception來(lái)高效抽取圖像特征,并在最后使用分類器來(lái)對(duì)最終2048維結(jié)果進(jìn)行分類實(shí)現(xiàn)識(shí)別。
另一種方式利用了建議系統(tǒng)來(lái)構(gòu)建了標(biāo)志抽取系統(tǒng),并基于多輸入多輸出的CNN分類器實(shí)現(xiàn)了人臉識(shí)別。首先將卡通圖像進(jìn)行灰度和歸一化處理,隨后對(duì)卡通人臉圖像的15個(gè)特征點(diǎn)坐標(biāo)進(jìn)行抽取。在檢測(cè)過(guò)程中,使用了5層的神經(jīng)網(wǎng)絡(luò)對(duì)特征點(diǎn)進(jìn)行檢測(cè)(利用真實(shí)的人臉進(jìn)行了訓(xùn)練,以提高人臉特征檢測(cè)能力)。最后這一結(jié)果和像素處理的結(jié)果同時(shí)送入到建議人臉識(shí)別架構(gòu)網(wǎng)絡(luò)中去,通過(guò)CNN的多輸入多輸出結(jié)果進(jìn)行識(shí)別。
通過(guò)對(duì)于上述網(wǎng)絡(luò)的訓(xùn)練后,得到了良好的檢測(cè)結(jié)果。在人臉檢測(cè)的表現(xiàn)上,作者同時(shí)和基于HOG特征及Harr特征的結(jié)果進(jìn)行了比較,在真陽(yáng)性、假陽(yáng)性、假陰性的指標(biāo)都超過(guò)了這些方法。
在卡通人臉關(guān)鍵點(diǎn)提取任務(wù)中也表現(xiàn)良好。
這一工作的主要貢獻(xiàn)在于利用MTCNN架構(gòu)實(shí)現(xiàn)了卡通人臉的檢測(cè),并在多個(gè)指標(biāo)上有了較大的提高,同時(shí)在卡通人臉識(shí)別任務(wù)上利用了預(yù)訓(xùn)練的Inception架構(gòu)和SVM特征分類器實(shí)現(xiàn)了更高的效果。并提出了基于LeNet的多輸入多輸出HCNN架構(gòu)降低了top5的錯(cuò)誤率。
值得一提的是,在卡通圖像領(lǐng)域還有很多的工作可以去填坑,包括卡通人臉識(shí)別、驗(yàn)證、性別識(shí)別,照片到卡通圖像的相互轉(zhuǎn)換(類似風(fēng)格遷移)、卡通人臉檢測(cè)、位置估計(jì)和關(guān)鍵點(diǎn)檢測(cè)、相關(guān)特性識(shí)別以及基于卡通圖像特征的搜索引擎。同時(shí)還包括通過(guò)照片轉(zhuǎn)化為一系列卡通表情的生成、草圖繪制和渲染,以及相應(yīng)的逆問(wèn)題。還有很多應(yīng)用和點(diǎn)可以再卡通領(lǐng)域進(jìn)行探索,甚至GANs和VAE也是一個(gè)不錯(cuò)的選擇呢!
原文標(biāo)題:人臉識(shí)別的新世界——卡通人臉檢測(cè)
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。