原文來源:arXiv
作者:Adrian Bulat、Georgios Tzimiropoulos
「雷克世界」編譯:嗯~是阿童木呀、KABUDA、EVA
現(xiàn)如今,人臉識別在實際生活中有著越來越多的應用。可是,對于一些低分辨率的人臉圖像來說,如何對其中的人臉特征點進行精確定位是一個挑戰(zhàn)。最近,英國諾丁漢大學計算機視覺實驗室的科學家們提出了一種Super-FAN,這是首個集成人臉超分辨率和特征點定位的端到端系統(tǒng)。能夠提高低分辨率人臉圖像的質量,同時還能夠對圖像上的人臉特征點進行精確定位。
本文提出了兩個具有挑戰(zhàn)性的任務:提高低分辨率人臉圖像的質量,并精確定位這些低分辨率圖像上的人臉特征點。為此,我們做出了以下5個貢獻:
1. 我們提出了Super-FAN:第一個能夠同時解決這兩個任務的端到端系統(tǒng),即改善人臉分辨率和檢測人臉特征點。Super-FAN的新穎性在于:通過將一個人臉對齊(face alignment)的子網絡集成到熱圖回歸(heatmap regression)中,并優(yōu)化新的熱圖損失(heatmap loss),從而將結構信息整合到基于GAN的超分辨率算法(GAN-based super-resolution algorithm)中。
2. 我們通過在正面圖像(如先前的研究)和整體人臉姿勢光譜上,以及在合成低分辨率圖像(如先前的研究)和現(xiàn)實世界的圖像上,都顯示出良好的結果,從而說明了訓練這兩個網絡的好處。
3. 我們通過提出一種新的基于殘差的架構,改進了人臉超分辨率最先進的技術。
4. 定量地看,我們大大提高了人臉超分辨率和人臉對齊的最先進技術。
5. 定性地看,我們首次在現(xiàn)實世界的低分辨率圖像上得到良好的結果,如圖1所示。
圖1:我們的系統(tǒng)在來自WiderFace的真實低分辨率人臉上生成的一些視覺效果的樣本圖片。
本文的目的是改進非常低分辨率的人臉圖像的質量和理解。這在許多應用程序中很重要,比如人臉編輯監(jiān)視/安全。在質量方面,我們的目標是提高分辨率,并恢復現(xiàn)實世界低分辨率人臉圖像的細節(jié),如圖1的第一行所示;該任務也被稱為“人臉超分辨率(face super-resolution)”(當輸入的分辨率太小時,該任務有時被稱為“人臉幻覺(face hallucination)”)。
在理解方面,我們希望通過使用語義(semantic meaning)定位一組預定義的人臉特征點(如鼻尖、眼角),從而提取中高級的人臉信息;這個任務也被稱為“人臉對齊(face alignment)”。
試圖同時解決這兩項任務實際上是一個“先有雞還是先有蛋”的問題:一方面,能夠檢測到人臉特征點已經被證明有利于人臉超分辨率;然而,如何在任意姿勢的低分辨率人臉中完成它仍是一個尚待解決的問題。另一方面,如果能夠在整體人臉姿勢光譜上有效地解決低質量和低分辨率的人臉,那么人臉特征點就可以被精確定位。
因為很難在非常低分辨率的人臉中檢測特征點(如在本研究中所注意和驗證的那樣),當人臉特征點定位不良時,基于此想法的先前的超分辨率方法會產生帶有偽像(artifact)的模糊圖像。
圖2:本文所提出的Super-FAN架構包含三個相連的網絡:第一個是剛剛提出的超分辨率網絡。第二個網絡是基于WGAN的鑒別器,用于區(qū)分超分辨率和原始HR圖像。第三個網絡是FAN,這是一個人臉對齊網絡,用于定位超分辨率人臉圖像上的面部特征點,并通過新引入的熱圖失真來提高超分辨率。
我們的主要貢獻是證明即使對于完全任意的姿勢(例如頭像圖像,參見圖1和圖5),實際上也可以共同執(zhí)行人臉特征點定位和超分辨率,
總而言之,我們的貢獻是:
1. 我們提出了Super-FAN:第一個能夠同時解決人臉超分辨率和人臉對齊的端到端系統(tǒng)。它通過熱圖回歸(heatmap regression)將人臉特征點定位的子網絡集成到基于GAN的超分辨率網絡中,并結合了新的熱圖損失(heatmap loss)。參見圖2。
2. 我們展示了在任意人臉姿勢的合成生成和現(xiàn)實世界低分辨率人臉上共同訓練這兩個網絡的好處。
3. 我們還提出了一種改進的基于殘差的超分辨率架構。
4. 定量地看,我們首次報告了LS3D-W數(shù)據(jù)集上整體人臉姿勢光譜的結果,并且在超分辨率和人臉對齊方面顯示出了巨大的進步。
5. 定性地看,我們首次在從WiderFace數(shù)據(jù)集獲取的現(xiàn)實世界低分辨率人臉圖像上得到良好的視覺效果(參見圖1和圖5)。
接下來,我們來介紹一下在圖像和人臉超分辨率以及人臉特征點定位(facial landmark localization)方面的相關研究。
圖3:本文所提出的超分辨率架構(左)與《使用生成式對抗網絡實現(xiàn)的照片逼真的單一圖像超分辨率》中描述的架構(右)之間的比較。
圖像超分辨率
早期使用CNN進行的超分辨率嘗試使用的是標準Lp損失進行訓練的,結果導致模糊的超分辨圖像。為了緩解這一問題,論文《實時風格遷移和超分辨率的感知損失》的作者提出了一個關于特征映射的MSE,提出了感知損失(perceptual loss),而不是在像素上(超分辨率和參考真實HR圖像之間)使用MSE。值得注意的是,我們也在我們的方法中使用了感知損失。
最近在《使用生成式對抗網絡實現(xiàn)的照片逼真的單一圖像超分辨率》中,作者提出了一種基于GAN的方法,該方法使用鑒別器在超分辨率和原始HR圖像以及感知損失之間進行區(qū)分。在《Enhancenet:通過自動紋理合成的單一圖像超分辨率》中,作者提出了一種基于補丁的紋理損失,以改進重構質量。
值得注意的是,前面所提到的所有圖像超分辨率方法都可以應用于所有類型的圖像,因此不包含特定于人臉的信息,像在我們的研究中所提出的那樣。此外,在大多數(shù)情況下,其目標是對于給定的圖像,生成具有良好分辨率(通常為128×128)的高保真圖像,而面部超分辨率方法通常在具有非常低分辨率(16×16或32×32)的面部上給出報告結果。
從上述所有方法中,我們的研究與《實時風格遷移和超分辨率的感知損失》和《使用生成式對抗網絡實現(xiàn)的照片逼真的單一圖像超分辨率》更為密切相關。特別是,我們的貢獻之一是描述一種改進的基于GAN的超分辨率體系結構,我們將其用作一個強大的基線,在其基礎上構建了我們的集成人臉超分辨率和對齊網絡(alignment network)。
人臉超分辨率
最近,在《通過鑒別式生成式網絡實現(xiàn)的極端超分辨人臉圖像》的研究中,采用基于GAN的方法來分辨具有非常低分辨率的人臉圖像。該方法顯示,對于來自CelebA數(shù)據(jù)集的正面和預先對齊的人臉運行結果良好。
在《通過變革性的鑒別式自編碼器得到極其低分辨率的未對齊和含噪聲的人臉圖像》中,作者提出了一個兩步解碼—編碼器—解碼器的架構,它包含一個空間轉換網絡以撤銷轉換、縮放和旋轉失準(rotation misalignments)。
他們的方法在來自CelebA的正面數(shù)據(jù)集中的預先對齊的、合成生成的LR圖像上進行了測試。值得注意的是,我們的網絡并不試圖撤銷失準,而是簡單地學會如何進行超分辨,并同時通過集成一個特征點定位子網絡解決人臉結構問題。
圖4:LS3D-W中的視覺效果
與我們的方法最相似的研究是,以交替的方式執(zhí)行人臉超分辨率和密集的人臉對應。他們的算法在PubFig和Helen的正面人臉圖像上進行了測試,而在真實圖像(總共4張)上的測試結果少有成功。
《用于人臉幻覺的的深度級聯(lián)網絡》與我們研究工作的主要區(qū)別在于,密集對應算法(dense correspondence algorithm)不是基于神經網絡,而是基于級聯(lián)回歸,是從超分辨率網絡中進行分離式預學習的,并保持不變。
同樣地,《用于人臉幻覺的的深度級聯(lián)網絡》研究也面臨著同樣的問題,即必須檢測模糊人臉上的特征標志,這在算法的第一次迭代中尤為明顯。相反,我們建議以端到端的方式聯(lián)合學習超分辨率和面部特征點定位,并僅用單次對焦來完成圖像的超分辨和人臉特征點的定位。如圖2所示,正像我們所展示的那樣,這會導致性能的大幅提升,并在整個面部姿勢譜中生成高保真度圖像。
圖5:由我們的系統(tǒng)、SR-GAN和CBN在來自WiderFace的真實低分辨率人臉上所產生的結果。
值得注意的是,我們的研究成果超越了現(xiàn)有的技術,并且通過定量和定性兩種方式,對超分辨率和人臉特征點定位進行了嚴格評估。在此之前,人們主要利用正面的數(shù)據(jù)集(例如:CelebA、Helen、LFW和BioID)得出實驗結論,與之相反,我們在實驗中所使用的低分辨率圖像是通過新創(chuàng)建的LS3D-W平衡數(shù)據(jù)集生成的,其中每個面部姿勢都對應偶數(shù)張人臉圖像。
我們對取自WiderFace數(shù)據(jù)集的200張真實低分辨率圖像進行了定性分析,并得出了相應結論。據(jù)我們所知,這是利用真實圖像對人臉超分辨率算法進行的一次最全面的評估。
人臉對齊
近期,一項有關人臉對齊的評估表明,當分辨率降至30像素以下時,采用標準人臉分辨率(198×192)訓練的中、大型姿勢網絡的最優(yōu)性能分別下降超過15%和30%。這一評估結果是我們開展此次研究的主要目標之一。
由于我們的目標不是提出一種新的人臉對齊架構,因此我們采用人臉對齊網絡(Face Alignment Network,FAN),該網絡由沙漏網絡(Hourglass network)與殘差塊(residual block)構建而成。如圖所示,FAN對任意面部姿勢都能夠表現(xiàn)出優(yōu)異的性能,并獲得清晰的圖像。
正如我們在文中所展示的那樣,一個被專門訓練并用于將低分辨率圖像中的特征點進行定位的FAN,性能表現(xiàn)欠佳。我們的一項貢獻就是表明,當FAN進行集成并與超分辨率網絡進行聯(lián)合訓練時,FAN可以以高精確度定位低分辨率圖像中的面部特征點。
我們提出了Super-FAN:這是首個集成人臉超分辨率和特征點定位的端到端系統(tǒng)。我們通過集成子網絡進行人臉對齊,并對新的熱圖損失進行優(yōu)化,從而將面部結構信息整合至超分辨率體系結構中。我們展示了最先進的人臉超分辨率和全臉姿勢對齊。不僅如此,我們還首次在現(xiàn)實世界中的低分辨率人臉圖像上顯示出了良好的效果。
原文鏈接:https://arxiv.org/pdf/1712.02765.pdf
來源:人工智能學家