元宇宙的熱潮,推動著各種虛擬數字人頻繁出現在公眾視野,在娛樂、社交、營銷等領域發揮其價值。
在理解虛擬數字人時,需要對其詞組進行拆分。
-
“虛擬”對應物理,強調展現形式,包括圖片、視頻、直播等方式存在於電子屏中,如APP、小程序、軟硬一體顯示設備。元宇宙下,VR設備與全息投影也將成為重要存在方式。
-
“數字”強調技術。虛擬數字人依托多項技術存在,包括建模驅動、視覺設計、語音識別、圖像識別,以及多模態技術與深度學習等,相關技術成熟成為其發展重要推動力。
-
“人”指的是高度擬人化。外在上,虛擬數字人有著特定的五官、身高和體重,甚至能夠被刻畫出毛孔和細紋。內在上,虛擬數字人有比擬正常人的情商和三觀,能夠與人交流和互動。
綜上,虛擬數字人指存在於非物理世界中,由計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等計算機手段創造及使用,並具有多重人類特徵(外貌特徵、人類表演能力、人類交互能力等)的綜合產物。
但從虛擬數字人發展的歷史看,“虛擬”、“數字”和“人”並非同步發展,技術是決定虛擬數字人的發展程度的核心因素。因此,本文將從技術維度,探討虛擬數字人發展脈絡。此前,零壹智庫、01區塊鏈聯合《陸家嘴》雜誌針對虛擬數字人發布了第一期“虛擬數字人TOP50排行榜”(虛擬偶像TOP30和虛擬員工TOP20),也歡迎關注。
一、虛擬數字人的萌芽與初步發展
早在20世紀80年代,將虛擬人引入到現實世界的想法已經出現。
1982年,動畫片《太空堡壘》中的女角色林明美作為虛擬歌姬出道,其專輯也成功打入當時的知名音樂排行榜。日本媒體率先提出了“虛擬偶像”的稱號。
1984年,世界首位虛擬電影演員“Max Headroom”誕生,出演電影,並拍攝數支廣告,在英國家喻戶曉。
1998年,英國虛擬樂隊Gorillaz出現,由主唱2-D、貝斯手Murdoc Niccals、吉他手Noodle和鼓手Russel Hobbs四位虛擬角色組成。
此時,虛擬人概念先行,給予虛擬形像以立體化人設,並帶入大眾視野。但受制於技術發展,“數字化”在這個階段並不明顯。打造虛擬人的技術以手工繪製為主,人物形像以2D卡通的形式展現,展現方式以事先完成的音頻和視頻為主,並不具備實時交互功能。
圖:初代虛擬歌姬“林明美”
進入21世紀,虛擬人的數字化特徵逐漸明顯。
形象創建上,虛擬數字人開始從手繪轉向CG(Computer Graphics,計算機動畫)和動作捕捉等計算機技術。
傳統CG技術脫胎於遊戲行業,主要基於專業CG軟件進行相應的建模、動畫製作和渲染等,可以從外形、表情到動作方面還原真人的影視級效果。
動作捕捉技術來源於電影工業,即通過紅外線攝像機、動作分析系統,透過由受試者身上反光球執行反射回來的光線,將運用攝像機拍攝到的2D影像轉換成3D資料。
2007年,日本虛擬歌手“初音未來”的誕生與流行成為虛擬數字人在該階段最重要的里程碑。
初音未來的虛擬形象採用CG和動作捕捉技術。在動作捕捉技術的助力下,初音未來可以直接採用人類的表情和動作,借助CG技術,能夠對動作捕捉生成的“人物骨骼”進行“無痕”對接。初音未來的一顰一笑都與人類更加接近。
作為虛擬歌姬,初音未來的歌喉基於VOCALOID(電子音樂製作語音合成軟件)。採樣於日本聲優藤田咲,創作者只需要輸入歌詞和旋律,就能夠自動形成歌曲。在此基礎上,製作方和粉絲為初音未來創作了超10萬首歌曲,包括紅遍大街小巷的《甩蔥歌》等。
2010年3月9日,初音未來在日本舉行名為初音未來日的感謝祭”“初音之日”(Miku’sDay),這是史上首場3D全息投影演唱會。全息影像成像面積超過15平,由4塊全息投影膜拼接而成,並採用高流明的投影,配合三維動畫內容投射到全息投影膜上。該技術“復活”了初音未來,其首次以3D形象現世。
圖:初音未來感謝祭
從形象創建、演唱方式到互動形式,初音未來在“數字”上垮了一大步。誕生僅五年,其已經創下了超100億日元的經濟效益,正式了掀起虛擬偶像熱潮。
在這個階段,國內也誕生了虛擬偶像。 2001年,中國首位虛擬少女“青娜誕生,以全數字、3D動畫和動捕技術創建而成。2012年,洛天依的形象設計首次公佈,至今成為中國最著名的虛擬偶像,並出現在春晚、奧運會開幕式上,成為真正的國產偶像。
二、2D轉向3D,恐怖谷效應凸顯
2016年,一位巴西和西班牙混血女孩Lil Miquela引起大眾熱議。
健康的小麥色膚色、長著濃眉和雀斑、扎著標誌性的丸子頭和齊劉海,以及新銳潮流的穿搭、豐富的社交日常,Lil Miquela很快在Instagram吸引大量粉絲。但其略帶建模痕蹟的照片引發了一場“真假辯論”。許多粉絲相信她是真實存在的人物,只是修圖“狠”了點。直到黑客們入侵了她的賬號,才最終確定了她是由3D電腦動畫公司Modelingcafe製作的虛擬人。
Lil Miquela具有非常強烈的性格特徵。她用自己的實名賬號,在網絡上聲援跨性別者平權,與LGBT群體站在同一戰線,支持種族平等,還與虛擬人男友秀恩愛,併後來宣告分手。 2018年,Lil Miquela與特朗普、蕾哈娜等人一起被美國《時代》周刊列為“25位最有影響力的互聯網人物”。
Lil Miquela的出現讓人直呼驚呆了,虛擬數字人再次受到了關注。不同於2D的動漫形象,3D擬人形像對面捕和身體建模對建模提出了更高要求,需要使用三維建模技術生成形象,信息維度增加,所需的計算量更大。此外,這個階段虛擬數字人的個性特徵凸顯,通過在社交平台上發表自己的想法,逐漸具備社會影響力。
圖:Lil Miquela(右)
隨著3D擬人形象的出現,恐怖谷效應開始出現。
1970年,日本機器人專家森昌弘提出恐怖谷理論,由於機器人與人類在外表、動作上相似,所以人類會對機器人產生正面的情感。當機器人與人類的相似程度達到一個特定程度的時候,一點點的差別都會顯得非常刺目,並帶來負面和反感情緒。而當機器人與人類的相似度繼續上升,人類對其情感會再度回到正面。
虛擬人不僅需要以假亂真的建模技術,還需要在表情、動作以及交互能力上提升。
例如,當虛擬人面對鏡頭微笑,嘴角上翹的幅度、眉眼以及皮肉之間聯動等細節都需要被照顧到。對於動態的擬人虛擬人來說,細節的不到位往往帶來說不出的僵硬和古怪。因此,恐怖谷效應下,不僅建模技術需要實現擬真,在渲染和交互上也提出了更高要求。
渲染和交互能力是個“此消彼長”的過程。遊戲中的角色更加強調交互能力,渲染出來的角色仿真性較差,而電影渲染出來的角色能夠達到肉眼分不出真假的層次,但是不具備交互性。
2018年5月30日,騰訊對外公佈了一個名為“Siren”的研究項目。這是由騰訊、Epic Games、Cubic Motion和3Lateral企業合作打造的一個虛擬人物。不同於一般虛擬人,Siren在渲染的真實性和交互性之間找到平衡,打造了具備實時交互能力的數字虛擬人。
Siren的所有動作表情都由實時捕捉以及實時渲染形成。操作者需要將一套特製的設備戴在頭上,這一設備會實時跟踪200多個面部特徵點,再把這些特徵點實時反映到系統構造的3D臉部模型上,最終呈現為以每秒60幀輸出的動作表情。整個捕捉過程會在15毫秒內完成,基本不會有什麼延遲。
圖:虛擬數字人Siren
2021年6月,由新華社、騰訊聯合打造的全球首位數字航天員、數字記者“小諍”出現。小諍在不到3個月的時間被打造出來,相較Siren的製作週期縮短了一半。這依賴於一套高效人臉製作管線xFaceBuilder,通過將建模、綁定、動畫等環節納入平台並統一解法,大大縮短了製作的流程。
當然,從成本上來講,虛擬數字人的成本支出非常大。例如團隊在“小諍”臉上種了10萬根麵部汗毛,這對機能的消耗是極其龐大。高昂的建設成本使得虛擬數字人難以在商業領域大規模落地。
圖:虛擬數字人“小諍”
三、AI技術的引用帶來大規模商業化應用
隨著虛擬數字人技術的發展,AI技術成為製作和驅動虛擬人重要的工具。 AI技術的支持下,數字人製作過程得以簡化,深度學習算法突破,提升虛擬人語音表達、語義理解以及對話等能力。
在《2022 年中國虛擬人產業發展白皮書》中,數字虛擬人被分為下述兩種:
廣義虛擬人(Meta human),指通過CG建模、手繪方式完成虛擬人前期製作,通過聯合動捕、面捕技術實現驅動的虛擬人。
超級自然虛擬人(Al being),指主要通過A技術“一站式”完成虛擬人的創建、驅動、內容生成,並具備感知、表達等無需人工干預的自動交互能力。
近五年,AI在虛擬數字人生成和驅動上展現了較高的效率。在《企業級AI數字人數字經濟發展“新動能”》中,根據數字人擬人化程度,以及生產製作的自動化水平兩個維度,數字人被分成五個等級。
圖:數字人L1-L5等級(商湯智能產業研究院)
AI快速發展和融入行業的態勢使得虛擬數字人融入各個行業的發展成為可能。
報告指出,L4和L5等級的數字人不僅具備高度的擬人化呈現,在形象、動作和智力層面都更接近於真人水平,能夠聽懂、看懂、有記憶、自學習,與人進行自然交互;同時,在製作流程中也融合了大量的人工智能算法技術來提升數字人的生產效率,降低了數字人的製作成本。
目前,融合AI打造數字虛擬人以融合行業應用已經成為重要趨勢。
以科大訊飛為例,基於其自主研發的語音合成、識別、自然語言、圖像處理等技術,創新發布虛擬生成、驅動、交互技術,搭建了科大訊飛AI虛擬人交互平台。該平台可以提供虛擬人形象構建、AI驅動、API接入、多場景解決方案,實現一站式的虛擬形像打造服務。
目前,虛擬數字人在各行業已經得到了廣泛應用。尤其是娛樂和傳媒行業,虛擬偶像和虛擬主播賽道十分火熱,這類虛擬數字人也贏得觀眾喜愛。在金融、教育、醫療、政企等行業,虛擬客服、虛擬老師、智醫助手、數字員工等也開始出現。
四、元宇宙催生數字虛擬人新賽道
2021年下半年,元宇宙點燃了整個市場。元宇宙作為虛實交融的空間,帶來了無限的想像力,而進入元宇宙的第一步為打造“化身”。過去,互聯網下的化身更多是2D的圖像,而元宇宙中的化身將是“千人千面”的,代表用戶的個人形象。
作為人類在元宇宙的通行證和身份標識,元宇宙帶來了數字虛擬人新的形態——虛擬化身。
至此,數字虛擬人能夠按照應用場景區分為兩類,一類是身份型虛擬人,如虛擬化身和虛擬偶像,這類虛擬人擁有獨立身份,被賦予具有個性的人格特徵。另一類是服務型(功能型)虛擬人,這類虛擬人能夠投入生產和服務,以虛擬化身的形象執行偏標準化的工作。
圖:數字虛擬人分類
隨著元宇宙的發展,打造虛擬化身的需求有待釋放,為虛擬數字人帶來了C端市場的商業價值。
隨著圖像識別技術,人體識別算法的進步,昂貴的光學動捕設備不再是建模和驅動的必備工具。普通攝像頭、傳感器等設備也能夠支持“小白”創建人物形像以及進行精準的驅動。目前,用於生成虛擬數字人的工具化平台已經出現。
以線上社交服務公司Spatial為例,其推出的VR化身創建平台支持任何人在幾分鐘內完成虛擬化身創建。用戶能夠通過網絡攝像頭拍攝、或者從設備上上傳自己的照片,用於創建一個基於用戶外表的3D自定義VR頭像。之後,用戶可以自定義膚色外觀,或者更改頭像襯衫的顏色。
除了頭像的仿真性,平台還支持用戶展示與他人互動時習慣的肢體動作。用戶可以通過VR耳機中的手部追踪功能,支持化身跟隨用戶的動作,展現用戶的手勢和身體形態。對於沒有VR設備的用戶,平台嵌入了不同肢體動作或舞蹈動作,用戶能夠通過鍵盤按鍵,展現自己在肢體上的風格特色。
圖:Spatial平台
此外,面捕、動捕技術及設備的家用打開了創作者市場。
動態捕捉技術幫助人們實現了人的實在身體向虛擬化形象轉移的互動過程,這種交互方式開啟了創作者的肉身與虛擬偶像身體的虛實觸達通道,也是人與機器之間的一種新的互動形式。
以FaceRig為例,一款應用於手機和電腦上的虛擬主播軟件,支持用戶將自己的臉變成各種卡通形象,並提供面部表情追踪,真實展現主播的表情和動作實況。
在斗魚平台上,許多主播都使用這類軟件來打造自己的虛擬偶像。例如,鬥魚直播平台中擁有千萬粉絲的“一條小團團”,借助面捕和動態捕捉技術,主播以可愛的虛擬形象實時動態地投射在屏幕上。搭配著其獨特的聲音,其收穫了大量粉絲。
借助面部捕捉和動態捕捉技術,個人創作者能夠實現自身形像或基於自身外觀特徵的虛擬化轉移,並打造對外交互的虛擬數字人形象。
圖:一條小團團卡通形象
寫在後面:
回顧虛擬數字人的發展歷程,技術是核心要素,而人們對虛擬數字人的想像和不懈追求更是催化劑,推動虛擬數字人從2D動畫走向3D超寫實,從定制化走向通用化,從商業端走向用戶端。
元宇宙將人類帶向了一個新的虛擬交融時代,虛擬數字人也將成為新的人機交互形式,以及人類的重要存在方式。甚至在未來,人們的數字化身和原生虛擬人的區別將逐漸被弱化,元宇宙的參與者成為“碳基生命”和“矽基生命”混合體。
正如科大訊飛對虛擬數字人的想像:
懂情感,愛人以及被人喜愛;
有個性,並非千篇一律;
智慧並善良,幫助人類是他們的初心;
每個人都可以獲得,而不是遙不可及。