隨著VR產(chǎn)業(yè)的開枝散葉和走向成熟,VR與眾多其他技術的結合也展現(xiàn)出了極大的應用潛力。比如在剛剛結束的Vive X第三批團隊Demo Day上,就出現(xiàn)了數(shù)家“丟掉”頭顯、只留下追蹤方案+Tracker的企業(yè)。
Red Pill Lab是此次Vive X中唯一一支來自臺灣的團隊。而能夠從數(shù)千家申請企業(yè)中脫穎而出,正是因為公司將獨家的AI技術和Tracker相結合,成功實現(xiàn)了低成本的全身動捕方案。在Demo Day之前,記者也特地與公司的兩位創(chuàng)始人RH和Brian深入了解了背后的技術,以及親身體驗了一把隨時“變身”卡通人物的經(jīng)歷。
成本不到2萬塊!用AI識別你的聲音
對于大多數(shù)人來說,“全身動捕”聽上去是一項非常遙遠和高大上的技術。實際上,這項本來用于影視行業(yè)的技術在近年來已經(jīng)逐漸在泛娛樂產(chǎn)業(yè)得到應用,比如最近大火的“虛擬主播”就大都采用了全身動捕,而非真的使用人工智能。
在Vive Tracker推出之時,其能夠以低成本方式實現(xiàn)動作捕捉的能力也獲得了不少關注。Red Pill Labs正是利用了Tracker的這一特性實現(xiàn)了對用戶身體的捕捉,同時再通過AI進行面部表情的深度學習計算,從而在虛擬形象身上實時呈現(xiàn)出真人表演者的動作。
但Red Pill最特殊的一點在于,和其他通過攝像頭捕捉面部表情的方案不同,他們選擇捕捉用戶的聲音。
“我們認為聲音是被很多人忽視的,”RH說。
據(jù)他介紹,公司的這套系統(tǒng)在通過麥克風捕捉到用戶的聲音之后,借由AI對聲音數(shù)據(jù)進行實時的分析,然后同步在虛擬形象臉部生成表情。這里的表情包含兩部分,一個是實時的嘴形,其他部分則通過眉毛的運動來表現(xiàn)。
這樣的描述不禁讓我想到了Animoji。當然蘋果采用了TOF方案,也就是通過“劉?!蹦翘幍囊幌盗猩疃葦z像頭來實現(xiàn)實時的面部捕捉。但是Red Pill的聲音方案真的靠譜嗎?
從記者的體驗來看,聲音轉化成面部表情的效果居然出人意料的不錯。從視頻中我們可以看到,動畫人物嘴部的動作基本上和表演者的聲音沒有延時,同時也非機械的一張一合,而是隨著聲音的變化在幅度上不一樣。同時,動畫人物的眉毛也會在發(fā)聲的過程中一起運動,包括眼睛的大小也會有小幅度的變化,這些元素交織在一起呈現(xiàn)出虛擬人物表情的變化。
據(jù)Brian介紹,目前世界上正在研發(fā)這類技術的僅有Red Pill、英偉達和迪士尼。英偉達技術的限制在于,需要鎖定同一個表演者的聲紋和虛擬角色;迪士尼則需要先將要講的東西變成文字,再讓機器處理成虛擬人物臉上的實時表情。
除了面部表情,Red Pill通過Tracker+Lighthouse對表演者身體動作的捕捉也已經(jīng)做到非常自然。在體驗的20分鐘過程中,動捕沒有出現(xiàn)卡頓現(xiàn)象,蹲下、坐下、轉身和小跑時的追蹤也沒有問題,肩膀和手腕也可以轉動。由于公司的這套軟件基于Unity的架構開發(fā),因此也可以通過手柄上的按鍵實時切換虛擬表演的背景圖片(視頻),以及為虛擬角色設計武器、交互等。公司甚至還自行開發(fā)了一款手套,可以更為精細的模擬出手指的動作。
Brian還談到,目前這套方案最多可以讓兩位表演者同時進習動捕的表演。但隨著新一代Lightohuse的推出,接下來將會實現(xiàn)4個人在10*10平方米的空間內同時表演。
而實現(xiàn)這些效果的前提——用戶需要花費的成本相當?shù)?。對于有Vive的用戶,只需另外購買4個Tracker,以美元計算為400刀;對于沒有Vive的用戶來說,目前購入一套Vive僅需500刀,也就是硬件成本在900刀左右。
從VR社交轉向教育和直播
實際上,我和Red Pill Labs的CTO,也是創(chuàng)始人之一的Dobry早在去年7月的RISE香港展會上就有過交流。但是在9個月之前,公司還希望將這套系統(tǒng)用在VR社交平臺上,AI技術可以通過對大數(shù)據(jù)的分析和深度學習來對Avatar的動作進行預測,數(shù)據(jù)越多,Avatar呈現(xiàn)出來的動作就會越自然和符合邏輯。
但如今,由于VR的主流之路并不順利,公司的商業(yè)模式也已經(jīng)出現(xiàn)了明顯的轉移,即從to C轉向to B。RH說,接下來公司最希望在大陸的教育市場落地,尤其是針對兒童的早教和學前教育。在他看來,除了因為教育市場比較大以外,兒童對于虛擬角色的接受度也非常高。在臺灣,公司已經(jīng)在一家少兒英語學習中心中落地,采用入場門票收費的方式(約100元/小時)獲取收入。
除了實地的表演之外,Red Pill的一個更為遠大的目標是希望能夠將整套方案上傳至云端,讓更多的用戶、表演者在足不出戶的情況下,就可以在Red Pill遠程直播中心進行節(jié)目的直播和收看。
Brian認為,云端+電視盒子的方式能夠讓更多人接觸到這種全新的遠程教育的方式,而且成本并不會太高。如果公司能夠和電視盒子的服務供應商達成合作,就可以直接將自己的軟件以應用的形式放到網(wǎng)絡電視平臺上。用戶在家中只需額外安裝一個攝像頭,讓表演者看到反應,接下來就可以很好的進行收看和互動。在收費模式上,則會采取收取月費的模式。
總的來說,在教育培訓的賽道上,Red Pill的技術可以拓展的方向還有很多。Brian特別提到,無論是線下英語培訓還是現(xiàn)在十分火爆的在線真人英語教育,都可以考慮用虛擬老師的形式。因為對于孩子們來說,與卡通角色交流的壓力要比和真人小得多。
Red Pill的另一個特色在于,同樣是做教育,但和大部分VR教育企業(yè)相比,頭顯這個最笨重的部分可以被完全拋開,這也就變相的降低了用戶的準入門檻。
雖然目前B端是Red Pill選擇的主戰(zhàn)場,但由于成本較低,這套動捕系統(tǒng)實際上也能夠被一些有直播需要的個人所采納。尤其是聲音捕捉這一特點,讓普通人通過麥克風就能夠實現(xiàn)虛擬形象面部表情的實時同步。公司也為此做好了準備,在軟件端設置了可以在YouTube、Facebook等開啟直播的通道。
動捕+面捕的市場潛力有多大?
Red Pill的這種打造“虛擬老師”的模式,不禁讓我們想起了最近在日本爆紅的“虛擬主播”。有趣的是,在此次的Vive X第三批團隊中,正好有這樣一家來自日本的虛擬偶像打造平臺COVER,他們也選擇通過Vive Tracker來實現(xiàn)全身動捕,然后實時反應在自家的虛擬主播“時乃空”的身上。
通過打賞、廣告的收入渠道,部分受歡迎的主播可以獲得可觀的收入。比如最知名的“愛醬”,光是在YouTube上的年收入就可以達到約180萬元人民幣。連COVER的時乃空每次1小時的直播也能有1.2-3萬元的收入。
從成本來看,由于對動捕效果的要求不像電影那么高,因此所用動捕系統(tǒng)的要求也相對較低。比如日本的很多廠商都選用了諾亦騰的Perception Neuron,套裝價格為7280/10800元。
在面部表情捕捉方面,現(xiàn)在主流采用的還是攝像頭。表演者需要通過一個支架將攝像頭固定在自己的面前,攝像頭收集了面部信息通過線纜傳輸?shù)诫娔X上進行處理。
比較來看,Red Pill捕捉聲音的優(yōu)勢在于:
1.對用戶來說能夠表演的更加自然,因為無需承擔攝像頭和支架的重量,同時也不用打光;
2.成本低和便捷,用戶只需普通的麥克風即可實現(xiàn)無線傳輸。
同時,Vive Tracker在動捕方面的潛力也在被逐漸發(fā)掘出來。此前,英國的軟件開發(fā)商IKinema推出了一款叫做Orion的低成本動作捕捉系統(tǒng),基于Lighthouse定位技術,由VR頭顯、運動控制器和3個Vive Tracker構成,年費為500美元。在采訪中,RH也提到了這款競品,并表示Red Pill相比之下對于電腦CPU的占用資源更少。同時公司正在不斷優(yōu)化AI算法,逐漸降低對電腦配置的要求。
總體來看,動作捕捉和面部捕捉在泛娛樂產(chǎn)業(yè)的應用在逐漸增加,除了虛擬主播之外,也用于游戲開發(fā)。
而在虛擬主播比較小眾的中國,教育培訓是一個不錯的切入點:卡通形象能夠有效調動孩子們的積極性,尤其是和本地的知名IP結合之后能夠發(fā)揮更大的作用。而雖然虛擬主播在中國偶像化的可能性不太大,但在廣告、營銷、客服等場合也能夠發(fā)揮用武之地,因為虛擬的形象天生要比真人更加有親和力。
無獨有偶,在正在進行中的GDC上,Unreal在現(xiàn)場用全身動捕+實時渲染技術,呈現(xiàn)出一個驚人逼真的虛擬角色“Siren”。在大廠的推動下,相信動捕技術和不同產(chǎn)業(yè)的結合也將越來越多。
原文標題:聲音也能做面部識別?這個Vive X團隊用AI做到了!| VR陀螺
文章出處:【微信號:vrtuoluo,微信公眾號:VR陀螺】歡迎添加關注!文章轉載請注明出處。