李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了


原文來源:機器之心

圖片來源:由無界AI生成

即使遮擋,也能渲染出高保真的3D 人體。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

AR/VR 、電影和醫療等領域都在廣泛地應用影片渲染人類形象。由於單眼攝影機的視訊擷取較為容易,因此從單眼攝影機渲染人體一直是研究的主要方式。 Vid2Avatar、MonoHuman 和NeuMan 等方法都取得了令人矚目的成就。儘管只有一個攝影機視角,這些方法仍能從新的視角準確地渲染人體。

不過,大多數現有的方法在渲染人體時都是針對較為理想的實驗場景進行設計的。在這些場景中,障礙物幾乎不存在,人的各個身體部位在每一格中也都能全部展現出來。但這與現實場景大為不同。現實場景中常有多個障礙物,人體也會在移動過程中被障礙物遮擋。

大多數的神經渲染方法在處理現實世界的場景時都會因為遮擋而困難重重,其中一大原因就是缺乏監督。實際場景往往無法提供有關人體外觀、形狀和姿態的真實監督數據,因此模型需要根據現有的少量證據來推斷其他信息,而這十分具有挑戰性,尤其是大部分人體被遮擋的情況。

由於許多神經方法採用的基於點的渲染方案,當一個被遮蔽和一個未被遮蔽時,兩個非常接近的座標會在渲染輸出上產生巨大差異。因此,那些未適應被遮蔽場景的方法在遇到遮蔽時經常會顯示出不完整的人體,或渲染出漂浮物和其他視覺上的錯誤。

最近,著名人工智慧教授李飛飛在X 上發布了有關3D 人體渲染工作的新進展—— 一種名為Wild2Avatar 的新模型,該模型即使在有遮擋的情況下仍然能夠完整、高保真地渲染人體。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

Wild2Avatar 是一種適用於有遮蔽的野外單眼影片的神經渲染方法。研究團隊提出了遮蔽感知場景參數化,將場景解耦為三個部分—— 遮蔽、人體和背景,分別渲染這三個部分,並設計了新穎的最佳化目標。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

論文地址:https://arxiv.org/pdf/2401.00431.pdf 專案網址:https://cs.stanford.edu/~xtiange/projects/wild2avatar/ 方法介紹

Wild2Avatar 可以為帶有遮蔽的野外單眼影片渲染具有完整幾何形狀和高保真外觀的3D 人體。 Wild2Avatar 模型的整體架構如下圖2 所示:

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

具體來說,Wild2Avatar 將遮蔽物、人體和背景建模為三個獨立的神經場,無論遮蔽物如何,都能對人體進行清晰的三維重建。為此,研究採用場景自分解技術,在倒球參數化(inverted sphere parametrization)的基礎上,提出了遮蔽感知場景參數化。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

除了倒球參數化定義的第一個球外,該研究還引入了第二個內球,並將從攝影機到內球邊緣的區域定義為遮擋區域。透過單獨渲染這一區域,Wild2Avatar 成功將遮蔽與場景的其他部分分開。

此外,為了確保高保真度和完整地渲染人體,該研究提出透過像素光度損失、場景分解損失、遮擋解耦損失和幾何完整性損失的組合來匯總三種渲染。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

實驗及結果

數據集

OcMotion:此資料集由人體與各種物體接觸的室內場景組成,同時被這些​​物體部分遮蔽。研究者從該資料集的48 個影片中選用了5 個,它們展示了不同程度的遮擋。他們從每個影片中只抽取了100 幀來訓練模型,並使用資料集提供的相機矩陣、人體姿態和SMPL 參數來初始化優化過程。幀內的二進位人體分割遮罩是透過「分割一切(SAM)」而獲得的。

野外影片:研究者對兩段真實世界的影片進行了額外的實驗,其中一段是從YouTube 下載的,另一段是研究團隊使用手機相機拍攝的。他們從這兩段影片中抽取了150 幀進行訓練,並使用SLAHMR 獲取了攝影機矩陣、人體姿勢和SMPL 參數。由於沒有提供真實姿態,因此對這些影片的評估也表明了各種方法對不準確估計的穩健性。

被遮蔽單眼相機影片上的結果

圖5 比較了Vid2Avatar 和Wild2Avatar 在兩個資料集上的渲染結果。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

在表1 中,研究者報告了兩種方法的量化結果,並觀察到二者在可見部分的渲染表現不相上下。不過,要注意的是,Wild2Avatar 在身體幾何形狀和遮蔽部分的渲染品質上始終優於Vid2Avatar。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

與OccNeRF 的比較

研究者將Wild2Avatar 與最近推出的遮擋人體渲染軟體OccNeRF 進行比較。比較結果如圖6 所示。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

為了進行公平比較,他們分別在500 幀和100 幀影像上對OccNeRF 進行了訓練。由於沒有隱性SDF 表徵,OccNeRF 存在浮游物和偽影等常見缺陷。雖然OccNeRF 也能恢復被遮蔽的人體部位,但人體通常會意外扭曲,導致渲染品質較低。

場景分解的可視化

Wild2Avatar 以組合的方式渲染了三個場景部分。人和背景/ 遮擋物分別在兩個不同的神經場中建模。圖7 展示了這三個場景部分的單獨渲染圖。需要注意的是,由於這項工作只專注於人體渲染,因此背景和遮蔽物的無偽影渲染不在這項工作的討論範圍內。

李飛飛團隊新作:AI透視眼,穿越障礙看清你,渲染遮擋人體有新突破了

消融實驗

儘管Wild2Avatar 仍能恢復被遮蔽的外觀,但在沒有提出的參數化的情況下,渲染結果中會出現許多偽影,見圖8 第一行。

如果不採用建議的損失函數,則無法完全恢復被遮蔽的區域,請參閱圖8 第二行。

提出的損失函數作為一個正規化器,強制人體幾何形態與SMPL 網格先驗保持一致,這防止了錯誤姿態的渲染,見圖8 第三行。

Total
0
Shares
Related Posts