隨著智能手機(jī)的迅速發(fā)展,移動端的人臉識別和分析越來越重要,而人臉追蹤是很多視覺應(yīng)用的主要出發(fā)點(diǎn)。在移動場景下的移動追蹤面臨著光照、尺度、角度的劇烈變化和環(huán)境背景、遮擋以及目標(biāo)的消失等挑戰(zhàn)。人臉追蹤十分重要但由于合適數(shù)據(jù)集的缺乏使得這一領(lǐng)域收到的關(guān)注較少。
為了幫助移動端人臉追蹤算法的開發(fā)和評測,帝國理工智能行為理解研究組(iBUG)提出了一個名為iBUG MobiFace benchmark的數(shù)據(jù)庫。最為第一個移動端的人臉追蹤基準(zhǔn),包含了50段智能手機(jī)在不受限環(huán)境下拍攝的影像、其中包括46個個體和50736幀。除了邊框標(biāo)記之外,還提供了9個序列屬性標(biāo)注。
研究人員還針對相關(guān)濾波和深度學(xué)習(xí)兩大方法、23種前沿算法進(jìn)行了評測。作者表示數(shù)據(jù)集將在近日公布在iBUG的網(wǎng)站上。
(編者注:iBUG網(wǎng)站上還有其他豐富的人類行為數(shù)據(jù)庫,包括3D人臉追蹤、人體姿態(tài)標(biāo)注等等數(shù)據(jù)庫感興趣的小伙伴可以參看:https://ibug.doc.ic.ac.uk/resources)
1. 移動端人臉追蹤
人臉追蹤是指在視頻中定位隨時(shí)間變化的目標(biāo)人臉。智能手機(jī)和移動設(shè)備的高速發(fā)展使得人臉追蹤算法扮演著越來越重要作用,從人臉解鎖到相機(jī)應(yīng)用,從人臉識別到美顏工具,移動端的追蹤成為了手機(jī)應(yīng)用的核心功能之一。人臉追蹤的目標(biāo)是在給定目標(biāo)初始位置的情況下,估計(jì)出接下來目標(biāo)的位置和尺度。雖然目前的人臉追蹤算法取得了一系列進(jìn)步,但在移動端還面臨著嚴(yán)峻的挑戰(zhàn)。業(yè)界提出了移動端數(shù)據(jù)集和物體追蹤數(shù)據(jù)集,但對于移動端的人臉追蹤還沒有細(xì)分的適合的數(shù)據(jù)集供研究人員開發(fā)和測評算法。
雖然與目標(biāo)追蹤很相似,但移動端的目標(biāo)追蹤算法卻在以下方面有著獨(dú)特的不同:
由于設(shè)備的旋轉(zhuǎn)和移動使得目標(biāo)的尺度變化劇烈;
相機(jī)和目標(biāo)都在同時(shí)運(yùn)動,相機(jī)運(yùn)動較為快速;
嚴(yán)重遮擋的人臉在人臉分析中沒有貢獻(xiàn),不應(yīng)該被追蹤;
移動端相機(jī)的視場較小、人臉很容易離開視場;
移動端算力有限;
照片受到卷簾快門的影響,造成不必要的扭曲和模糊。
一個優(yōu)秀的移動人臉追蹤算法不僅僅需要克服諸如光照變化等傳統(tǒng)的挑戰(zhàn)、更需要高效地解決移動端如視角、運(yùn)動等特殊的問題。
本文通過提出iBUG移動人臉追蹤數(shù)據(jù)庫作為測評基準(zhǔn),詳細(xì)分析OTB和VOT數(shù)據(jù)集上的23種前沿追蹤算法,并指出了深度學(xué)習(xí)和人臉相關(guān)算法結(jié)合具有潛在的提高空間。
2.人臉追蹤問題
人臉追蹤問題可以歸結(jié)為在初始位置給定后給出t幀中人臉的最優(yōu)位置,表達(dá)式如下:
如果人臉無法觀測則為0,如果可以觀測則找到分?jǐn)?shù)最大的區(qū)域r;其損失函數(shù)則可以定義為最小化幀序列中人臉位置的誤差:
目前針對視覺追蹤問題主要分為兩種思路,一種是利用相關(guān)濾波的方法實(shí)現(xiàn);另一種則是利用深度學(xué)習(xí)的方法來解決。
相關(guān)濾波器近年來在VOT和OTB數(shù)據(jù)集上取得了驚人的表現(xiàn),它可以被視為一種模板匹配的過程。在初始化過程中,相關(guān)濾波通過第一幀中的目標(biāo)區(qū)域進(jìn)行訓(xùn)練,隨后在后續(xù)幀的候選窗中應(yīng)用濾波器。最后在生成的空間執(zhí)行度圖中選出最高的區(qū)域作為這一幀的預(yù)測輸出,同時(shí)對CF進(jìn)行更新。相關(guān)濾波主要需要處理以下四個方面的問題,分別是如何從原始數(shù)據(jù)中抽取有效特征、處理不同尺度的目標(biāo)、邊界效應(yīng)帶來的信息損失和長時(shí)間追蹤。
而基于深度學(xué)習(xí)的追蹤方法主要分為單個CNN追蹤、雙CNN追蹤法和基于RNN的追蹤方法,同時(shí)還有強(qiáng)化學(xué)習(xí)的方法也同樣用于移動端的人臉追蹤。
研究人員們對于算法進(jìn)行了速度和準(zhǔn)確率和評價(jià),需要指出的是作者的電腦配置為Intel(R) Core(TM) i7-7700 3.60GHz CPU 、 GeForce GTX 1060 GPU 3GB memory。
從精度對比圖上可以發(fā)現(xiàn)幾乎所有的追蹤器在移動端人臉追蹤任務(wù)中都出現(xiàn)了一定程度的性能下降。在成功率圖中發(fā)現(xiàn)排名前五的算法都使用了深度特征,這意味著好的特征對于移動端人臉追蹤任務(wù)具有重要的意義。
同時(shí)文中還對針對數(shù)據(jù)集的不同屬性評價(jià)了23種算法,具體請參看文末鏈接的論文。結(jié)果顯示目前移動端的人臉追蹤算法相較于其他任務(wù)還有很大的差距。但可以看出基于深度網(wǎng)絡(luò)的特征可能在未來扮演重要的作用,高效的在線學(xué)習(xí)策略可以幫助基于深度學(xué)習(xí)的追蹤器平衡速度和精度的要求。
原文標(biāo)題:讓我看到你的臉:最新benchmark助力移動端人臉檢測新突破
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。