服務(wù)熱線：13728883399
wangyp@shangeai.com

以大數(shù)據(jù)為基礎(chǔ)，分析人臉識別技術(shù)的未來

時(shí)間：2019-03-27 13:50:12點(diǎn)擊：1172次

本篇大家整理的是來自上海交通大學(xué)人工智能研究院副院長、華東師范大學(xué)特聘教授,國家杰出青年基金獲得者馬利莊主題為《基于大數(shù)據(jù)的人臉識別技術(shù)進(jìn)展與展望》的精彩演講。馬院長參與了騰訊優(yōu)圖人臉識別、微眾銀行刷臉驗(yàn)證、商湯3D人體姿態(tài)估計(jì)等項(xiàng)目,具有豐富的理論和實(shí)踐經(jīng)驗(yàn)。

馬利莊

上海交通大學(xué)人工智能研究院副院長、華東師范大學(xué)特聘教授,國家杰出青年基金獲得者

以下內(nèi)容根據(jù)速記進(jìn)行整理,經(jīng)過馬利莊本人校對。

我匯報(bào)提綱包括七個(gè)內(nèi)容。首先回顧一下過去十幾年發(fā)生的事情。一個(gè)是數(shù)字化時(shí)代興起,它催生了互聯(lián)網(wǎng),這是我們時(shí)代的主流大趨勢。許多的產(chǎn)業(yè),像數(shù)字媒體業(yè),數(shù)字相機(jī),VR/AR的技術(shù)興起。當(dāng)然我們也知道伴隨著一些行業(yè)的衰落,像膠卷等一些傳統(tǒng)的行業(yè)。早的時(shí)候,我們計(jì)算機(jī)還有很多的硬盤拷貝等等,這些現(xiàn)在都沒有了。就是因?yàn)閿?shù)字化的時(shí)代催生了互聯(lián)網(wǎng)的時(shí)代。

我們剛才看到動動三維這個(gè)創(chuàng)意設(shè)計(jì),里面也把一些創(chuàng)意工作放在網(wǎng)上去了,數(shù)字化,利用圖形圖像技術(shù)來展現(xiàn)?；ヂ?lián)網(wǎng)時(shí)代催生了大數(shù)據(jù)。我們知道有眾多的新媒體產(chǎn)生,如微信,幾乎每個(gè)人都在使用,平均花2個(gè)小時(shí)到3個(gè)小時(shí),都是數(shù)據(jù)的使用者,同時(shí)也是產(chǎn)生者,自然形成了社交大數(shù)據(jù)。微信不僅是社交的工具,也是一個(gè)工作的工具;同時(shí)成為了一個(gè)游戲,這是個(gè)深刻改變了人們生活形態(tài)的互聯(lián)網(wǎng)時(shí)代。同樣,有一些產(chǎn)業(yè)衰落。我們看到街頭的小商店,小商品市場不景氣。我印象最深刻的是義烏的小商品市場,現(xiàn)在日子很不好過。

互聯(lián)網(wǎng)以及伴隨產(chǎn)生的大數(shù)據(jù)催生了人工智能時(shí)代!人工智能有三個(gè)要素:

一個(gè)是大數(shù)據(jù),有大數(shù)據(jù)作為原料;

第二個(gè)是計(jì)算能力,主要是GPU與CPU等;

最后是核心的算法,深度學(xué)習(xí)/卷積神經(jīng)網(wǎng)絡(luò)算法。

我1992年在浙大人工智能研究所做博士后,當(dāng)時(shí)跟何志均先生,潘云鶴教授是人工智能研究所的所長,那時(shí)就研究人工智能,但三起三落,人工智能的發(fā)展是螺旋式演進(jìn)的。當(dāng)時(shí)人工智能的發(fā)展為什么非常曲折和起伏,原因主要是缺少一個(gè)大數(shù)據(jù)的原料,缺少大量的算力,同時(shí)缺少深度學(xué)習(xí)等卷積神經(jīng)網(wǎng)絡(luò)新算法。當(dāng)時(shí)計(jì)算能力限制,算法處理不了現(xiàn)在大量復(fù)雜的數(shù)據(jù)或者大數(shù)據(jù)。像人臉識別的深度學(xué)習(xí)算法,需要要標(biāo)注數(shù)據(jù),我們與騰訊的優(yōu)圖人臉項(xiàng)目中,用了近百萬級別的人臉標(biāo)注。在當(dāng)時(shí)九十年代,這是難以想象的規(guī)模。

當(dāng)時(shí)有軟盤,只有1兆多,現(xiàn)在一幅超高清的圖像都是幾兆數(shù)據(jù),甚至更高。我們做AI+醫(yī)療的研究,分析腫瘤的病理切片。一張圖片有上百兆數(shù)據(jù),包括深度學(xué)習(xí)時(shí)涉及的相關(guān)參數(shù),算法實(shí)現(xiàn)過程顯示內(nèi)存很可能不夠。

人工智能時(shí)代催生智能手機(jī),智能安防,智能社區(qū),智能語音與機(jī)器人等。在座的各位比較幸運(yùn),因?yàn)槿斯ぶ悄軙r(shí)代中長久興旺的是軟件行業(yè),創(chuàng)意創(chuàng)新。智能創(chuàng)意不可能被AI替代。但目標(biāo)明確,規(guī)則清晰的行業(yè)就非?？赡鼙籄I替代。

9億的微信用戶,每天有10多億的圖像和視頻數(shù)據(jù)傳輸。阿里巴巴改寫了商業(yè)版圖,伴隨大數(shù)據(jù),人工智能興起。在座的可能在股市中投資,過去幾年,NVDIA和AMD的股價(jià)漲了十倍,重要的因素是AI對計(jì)算能力的需求大幅增長,當(dāng)然另外的原因是比特幣和區(qū)塊鏈的熱潮中,大量挖礦對算力的海量需求。

互聯(lián)網(wǎng)的極速發(fā)展,自然匯聚了可視媒體大數(shù)據(jù)。這些信息的增長改變了我們的生活方式,例如社交網(wǎng)絡(luò)中的微信。當(dāng)然也有挑戰(zhàn),大數(shù)據(jù)體量已經(jīng)超越了現(xiàn)有的硬件處理?xiàng)l件,比如說存儲空間,和計(jì)算資源的不足。我們認(rèn)為該領(lǐng)域的科學(xué)問題包括:數(shù)據(jù)的高效表達(dá),智能的處理以及結(jié)構(gòu)化,深度學(xué)習(xí)與感知理論,基于視覺感知的失真度量,不確定環(huán)境下的任務(wù)感知與理解等。

現(xiàn)在有理論研究證明深度學(xué)習(xí)模型合適條件下可以收斂到全局最優(yōu)解。這是目前為止深度學(xué)習(xí)中最新的一個(gè)理論成果。我們在座各位要重視。以前我們調(diào)侃各種深度學(xué)習(xí)模型重要的是調(diào)參數(shù),有人運(yùn)氣好,會調(diào)出好的結(jié)果,但現(xiàn)在有理論依據(jù)和保障。

技術(shù)的突破源于需求。城市大數(shù)據(jù),有很多交通、環(huán)境的感知數(shù)據(jù)等。金融大數(shù)據(jù),阿里、騰訊、百度都有積極的介入,希望提升運(yùn)用效率和結(jié)構(gòu)效率?；ヂ?lián)網(wǎng)金融中,還有所謂的萬物互聯(lián);徐教授也講了,不光是視覺,聽覺,還有嗅覺,味覺等等相關(guān)的感知數(shù)據(jù)。將人、路由器,服務(wù)器,業(yè)務(wù)系統(tǒng)等等作為研究對象,以網(wǎng)絡(luò)地圖的方式實(shí)現(xiàn)網(wǎng)絡(luò)空間態(tài)勢感知,服務(wù)于網(wǎng)絡(luò)攻防戰(zhàn)。這就是斯諾登揭示的棱鏡項(xiàng)目。

回到主題,智慧城市以人為中心,我們?nèi)斯ぶ悄苁且Ｕ蟼€(gè)體的信息安全,提高人的生活質(zhì)量,讓生活更美好。2010年世博會,上海提出城市讓生活更美好,非常符合我們智慧城市的總體目標(biāo)。個(gè)體信息安全就涉及到身份的認(rèn)證和門禁、監(jiān)控等。所以人臉識別和行為姿態(tài)識別是關(guān)鍵技術(shù)。

現(xiàn)在講一個(gè)比較形象的術(shù)語就是刷臉技術(shù)。很多人都知道,早幾年的時(shí)候,我們跟騰訊合作研發(fā)微眾銀行的刷臉技術(shù),微眾銀行只需一個(gè)總部即可,不像工商銀行一樣有幾萬的分支機(jī)構(gòu)。它只要一個(gè)總部,其業(yè)務(wù)都可以通過遠(yuǎn)程核身和身份認(rèn)證可以實(shí)現(xiàn)。當(dāng)時(shí)總理親歷了刷臉技術(shù)過程。刷臉驗(yàn)證,出租司機(jī)獲得了3.5萬元的貸款。這是微眾銀行的第一筆互聯(lián)網(wǎng)銀行的放貸業(yè)務(wù)。

互聯(lián)網(wǎng)人臉識別技術(shù)跟傳統(tǒng)銀行不同。銀行里面我們知道有“三親”原則。這是互聯(lián)網(wǎng)金融這塊必須考慮的問題,親見申請人本人,親核申請人身份證原件,親見申請人本人簽字。我們可以通過遠(yuǎn)程核身技術(shù)做到。

傳統(tǒng)的方法是人工成本高。剛才講的刷臉技術(shù)用于銀行中的互聯(lián)網(wǎng)金融,刷臉準(zhǔn)確率99.9%還是不夠。生物識別技術(shù)有很多種,我們要融合多元特征,例如臉部表情、聲音或聲紋,還有人臉的特征,提高身份遠(yuǎn)程核身的可靠性和準(zhǔn)確率。人臉識別是最為自然的交互技術(shù),現(xiàn)在可以做到非常高的精度。我們知道讓你按一個(gè)手印,可能你感覺像罪犯,因?yàn)樯眢w的接觸,很多人比較忌諱。目前人臉識別技術(shù)有門檻。我們跟騰訊優(yōu)圖合作來,在LFW數(shù)據(jù)集上可以達(dá)到99.65%和99.8%。

人臉識別技術(shù)挑戰(zhàn)與難點(diǎn),主要是圖像的采集質(zhì)量;其次是光照環(huán)境和姿態(tài)。因?yàn)樽R別分為主動式和被動式;金融支付里面是人會主動配合采集設(shè)備,圖像質(zhì)量和人臉姿態(tài)好。這種情形,識別率可以達(dá)到99%。但很多時(shí)候,人臉會在不同的光照條件下,產(chǎn)生大的差異,比如說昨天晚上我們部分智能創(chuàng)意與數(shù)字藝術(shù)的專委會人員合影的時(shí)候,背影強(qiáng)光,人臉拍出來就很暗,姿態(tài)也各異等等。還有年齡跨度問題等。身份證有效期有15年或20年。還有院士說豬臉的識別,豬臉狀態(tài)是短暫的,或者快速變化的,因?yàn)樯L周期一般只有半年,其識別率會大大下降。我們知道蠟像,外形幾乎跟你做的一模一樣。當(dāng)然蠟像缺乏臉部表情,讓他對話就露餡了。我們捕捉臉部表情的微變化這個(gè)就可以防御有人用它來欺騙攻擊系統(tǒng)。

目前我們的研究方向包括深度學(xué)習(xí)技術(shù),基于人臉物理性質(zhì)的推理和人臉語義或表情的推理;人臉監(jiān)測,特征跟蹤,跨年齡的人臉識別,以及三維人臉識別。我們重點(diǎn)攻克三維人臉識別。一張正面的照片,可以生成一張逼真的三維人臉。

活體檢測可以真正提高我們這個(gè)識別系統(tǒng)的安全性。有的公司號稱是采用人臉識別技術(shù),其實(shí)用一張大照片就能通過驗(yàn)證。這說明他們沒有采用活體檢測,也沒有用三維光照變化的信息,以及綜合人臉表情、聲紋來辨別真假。

下面我講講互聯(lián)網(wǎng)金融視頻監(jiān)控中取得的進(jìn)展。

大的框架,我們看看人臉識別上面。這是我們跟騰訊的優(yōu)圖組一起合作,基于騰訊云平臺和相關(guān)的人臉識別技術(shù)。2014年的時(shí)候,在FDDB數(shù)據(jù)集上人臉檢測達(dá)到了世界第一,人臉識別率在LFW數(shù)據(jù)集上刷新世界紀(jì)錄99.65%。采用的主要是標(biāo)注大量的人臉圖片與非人臉圖片的數(shù)據(jù)(近百萬級別)。這在20年以前是難以想象的。騰訊優(yōu)圖有很多的實(shí)習(xí)生,認(rèn)真的標(biāo)注。我們采用VIOLA-Jones瀑布流框架的算法優(yōu)化。

大規(guī)模小人臉的檢測方面。這張照片里面人臉數(shù)目上千。計(jì)算機(jī)視覺算法可以識別超860個(gè)人臉。以前的方法是無法想象的。一般的人能夠識別到兩百多個(gè),已經(jīng)非常很難。主要是用的這個(gè)DSFD人臉檢驗(yàn)算法,包括了特征增強(qiáng)模塊、分層錨點(diǎn)漸進(jìn)式LOSS的算法。

根據(jù)人臉識別的身份認(rèn)證。我們用百萬級人臉數(shù)據(jù)庫訓(xùn)練,多個(gè)數(shù)百層深度學(xué)習(xí)模型集成。目前有一個(gè)權(quán)威數(shù)據(jù)集MegaFace,我們項(xiàng)目組取得了83.29%的準(zhǔn)確率,位列榜首。我們提出了新的光線活體提高識別方法的安全性。大家知道安全性非常重要,真正用于安全監(jiān)控以及公安系統(tǒng)的時(shí)候,不光是識別人臉模型,還要考慮防偽和防攻擊。我們這次進(jìn)博會刷臉系統(tǒng)應(yīng)用,每天差不多30萬人進(jìn)出場館。我們知道6位的金融密碼,其實(shí)試一百萬次就一定有你正確的密碼。30萬人中,臉長得非常像的概率是很大的,特別是有些雙胞胎,很難識別。我們要用到多生物特征技巧,達(dá)到安全、簡便、高速、通用等要求。

安防監(jiān)控里面,我們需要找到不同攝像頭里的同一個(gè)人物。我們以前出了事情后期檢驗(yàn),看問題在哪;現(xiàn)在要同步進(jìn)行。該任務(wù)下一個(gè)路徑到哪一個(gè)地方等等。人的姿態(tài)會有很大差異,同一個(gè)人的姿態(tài)變化也很多。人體重識別方面,我們在三個(gè)主流數(shù)據(jù)上獲得第一。主要方法是通過了多任務(wù)交替訓(xùn)練,基于分塊的金字塔模型。

我們與商湯也是開展了這方面的合作,跟騰訊的合作已經(jīng)七年多。人體跟蹤方面,追蹤視頻中行人并對其運(yùn)動軌跡做出預(yù)判。項(xiàng)目組的人體跟蹤技術(shù),在權(quán)威測評MOT challenge上取得了兩項(xiàng)記錄。采用的技術(shù)方法,包括基于圖匹配模型的目標(biāo)關(guān)聯(lián)算法,基于有效動態(tài)差分的運(yùn)動相似度計(jì)算算法,以及基于行人再識別技術(shù)的特征相似度模型等。還有其他的應(yīng)用,基于深度學(xué)習(xí)的人臉識別技術(shù),以及顏值測算,可用于社交娛樂。

我們前年的時(shí)候,用了1300臺服務(wù)器,每天1億人臉計(jì)算平臺。還有天天P圖,人臉美化等分析技術(shù)。

我們跟商湯合作開展3D人體姿態(tài)估計(jì)。通過單張圖片,估計(jì)人體的姿態(tài)模型?；诙S圖像序列估計(jì)3D人體姿態(tài)是非常實(shí)用的。在最大的人體姿態(tài)數(shù)據(jù)集Human3.6M上,我們?nèi)〉萌?xiàng)指標(biāo)第一。這個(gè)成果還在保密階段,主要是對人體的快速估計(jì)。還有像素級別的語義分割,GTAV和SYNTHIA數(shù)據(jù)集作為源數(shù)據(jù)集,Cityscape作為目標(biāo)數(shù)據(jù)集,相關(guān)的指標(biāo)Mean IoU提高10個(gè)百分點(diǎn)。還有一個(gè)是預(yù)測RGB圖片上每個(gè)像素對應(yīng)位置的深度值。該項(xiàng)研究非常重要。我們在座的肯定有很多搞創(chuàng)意設(shè)計(jì),會涉及到二維三維的。我想做個(gè)革命性預(yù)測,因?yàn)橛辛松疃认鄼C(jī)以后,基于很好的三維重構(gòu)技術(shù)將來每個(gè)普通的人都可以生成三維的場景;普通人拍一段視頻就能生成三維的,自然形成海量的三維動畫視頻數(shù)據(jù),這是未來大發(fā)展方向。

我很簡單的講一下視覺無損壓縮技術(shù)。基于人類的視覺特性,對圖像進(jìn)行極限程度的壓縮。只要人的視覺感受不出差別,我們對其做一個(gè)最大程度的壓縮,非常實(shí)用。我們在2014年的時(shí)候,就處理了1200億張圖片的壓縮。這個(gè)例子中,左邊是3M,右邊是700多K,但是肉眼分辨不出哪一個(gè)是原始圖像。還有相關(guān)研究如自動上色和風(fēng)格化。中國傳統(tǒng)文化中有所謂的面像學(xué)。相由心生,從大數(shù)據(jù)的概念,從面部特征包括耳垂,眼眉間距等,找出相關(guān)的統(tǒng)計(jì)規(guī)律。人臉配準(zhǔn)和識別可以用于望診。我們跟上海兒童醫(yī)學(xué)研究院做一個(gè)兒童罕見遺傳基因缺損癥研究項(xiàng)目。例如唐氏綜合癥,我詫異的是什么呢?兩個(gè)兒童得了某種基因缺損癥,他們沒有任何血緣關(guān)系,但是臉部的共同特征非常明顯。我做基因檢測,有將近兩千多種的基因缺損癥,這個(gè)太費(fèi)錢費(fèi)時(shí)。我用照片篩選一下,判斷一下你的某一個(gè)基因可能是缺損的,那么再去做對應(yīng)的DNA檢測。

中醫(yī)四診望聞問切,是辨證論治,可采用典型的專家系統(tǒng)方法。比較重要的應(yīng)用需求就是眼底黃斑病變的AI算法。到了一定年齡以后,人眼普遍會有一定的問題。信息社會,人的視覺消耗太大了。每天手機(jī)屏幕那么小,我們在眼底黃斑定位上取得了一個(gè)比賽的第一。肺病診斷方面的重大應(yīng)用需求?，F(xiàn)在非常明確的事實(shí),通過AI+醫(yī)療智能化算法判別的準(zhǔn)確率,比專家級醫(yī)生提高10多個(gè)百分點(diǎn)。我是比較樂觀的,計(jì)算機(jī)AI算法一定會超過專家醫(yī)生的水平,高精尖的醫(yī)生永遠(yuǎn)需要,但工作強(qiáng)度大大降低。

大數(shù)據(jù)和強(qiáng)大的算力使得深度學(xué)習(xí)技術(shù)有了用武之地。國家對人工智能的期望非常大,我們的壓力也很大,到底有多少人工智能的產(chǎn)業(yè)能夠落地。我想計(jì)算機(jī)視覺有很多落地的重大應(yīng)用,也包括部分自然語言處理方面的技術(shù)。

人工智能重大需求,一個(gè)是純的互聯(lián)網(wǎng)銀行;第二個(gè)是智能安防與公共安全。智慧城市中的異常檢測,復(fù)雜的場景下的身份認(rèn)證和行為識別等需要研究。還有一個(gè)是新的獲取手段,包括深度數(shù)碼相機(jī)。剛才講的智能動畫創(chuàng)作,大眾化的創(chuàng)意設(shè)計(jì),人工智能+AR/VR。創(chuàng)意設(shè)計(jì)是我們這個(gè)大會的主題之一,這塊將有大的進(jìn)展。總之人工智能不變的是挑戰(zhàn)和機(jī)遇。

上一篇：視頻AI進(jìn)化論：從“人臉識別1.0”到“智能視覺2.0”
下一篇：不要輕易的去刷臉了危險(xiǎn)正在向你走來

打印

男按摩技师H文高辣,国产秒播高清在线视频,日韩一区二区免费,毛片视频黄片大全视频

以大數(shù)據(jù)為基礎(chǔ)，分析人臉識別技術(shù)的未來

人臉識別

深度學(xué)習(xí)

AI

人工智能

VR

AR

以大數(shù)據(jù)為基礎(chǔ)，分析人臉識別技術(shù)的未來