ECCV 2022 | 從虛擬信息學(xué)習(xí)可泛化的三維人體姿勢預(yù)計模型
導(dǎo) 讀
本文是對刊登于計算機視覺行業(yè)高級聚會 ECCV 2022的論文 VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data 的理解。該論文由北京大學(xué)王亦洲課題組與微軟亞洲研發(fā)院等單位協(xié)作,通過對現(xiàn)有基于深度學(xué)習(xí)的一定三維人體姿勢預(yù)計方式進(jìn)行泛化功能研發(fā),對于性地提出以抽象幾何表示為旁邊表示的方式,能夠通過形成充足的虛擬信息訓(xùn)練三維人體姿勢預(yù)計模型。試驗證實,該方式明顯提高了未見過情景中的泛化功能,以及不須要成對的圖片和三維人體姿勢真值進(jìn)行訓(xùn)練。
論文鏈接:https://arxiv.org/abs/2207.09949
01
背景簡介
在一定三維人體姿勢預(yù)計任務(wù)中,不單須要預(yù)計人體各關(guān)節(jié)點相針對根節(jié)點(往往為人體骨盆節(jié)點)的位子,還須要預(yù)計根節(jié)點在三維空間中的一定位子。這是1個擁有戰(zhàn)斗的問題,由于預(yù)計流程存在嚴(yán)重的歧義以及許多原因會牽連深度預(yù)計的結(jié)果,如圖1所示。
圖1. 小孔成像模型中的投影幾何。牽連深度預(yù)計的原因含蓋相機焦距、相機位姿、人的身高和姿勢等。
現(xiàn)有的方式大多直接學(xué)習(xí)從圖片到人體深度的映照聯(lián)系,雖然它們能在公然信息集上獲得較為好的成效,但因為信息集在相機位姿、人體姿勢并且圖片背景上缺少多樣化,訓(xùn)練出的模型的泛化功能較弱。
為了解決這一問題,本工作提出了以抽象幾何表示(Abstract Geometry Representation,簡稱AGR)為旁邊表示的方式,將模型拆劃為兩部份進(jìn)行訓(xùn)練。此中,能夠通過形成批量充足的成對 <AGR, Pose> 信息來進(jìn)行訓(xùn)練,進(jìn)而獲得泛化功能強的模型。
02
泛化功能研發(fā)
為了研發(fā)現(xiàn)有工作的泛化功能,本工作將基于深度學(xué)習(xí)的方式劃為三種,分別是(1)自頂向下基于探測框大小的方式(TBS),(2)自頂向下基于圖片特點的方式(TIF)并且(3)自底向上基于回歸的方式(BDR),并從中各選擇了1個擁有代表性的方式進(jìn)行泛化功能研發(fā)。
在試驗中發(fā)掘,現(xiàn)有的方式對圖2中呈現(xiàn)的含蓋相機位姿、圖片背景并且人體姿勢這3個原因都不足魯棒,特別是當(dāng)訓(xùn)練信息與測驗信息的拍攝視角不相近時,偏差會明顯加大。
圖2. 牽連基于深度學(xué)習(xí)的方式的3個原因,含蓋 (a) 相機位姿,(b) 圖片背景并且 (c) 人體姿勢。
03
方式概覽
為了解決這一問題,本工作提出了以抽象幾何表示(Abstract Geometry Representation,簡稱 AGR)為旁邊表示的方式,VirtualPose,如圖3所示。AGR 是1個通常性的概念,拿來表示許多既能夠輔助修復(fù)一定三維人體姿勢,同時也能夠很魯棒地從圖片中被預(yù)計并且能夠依據(jù)三維人體姿勢形成出去的一類幾何表示。在本工作的實行中,AGR 含蓋了人體探測框圖并且二維人體姿勢熱圖 。
AGR 將網(wǎng)絡(luò)切分成兩部份,第一部份負(fù)擔(dān)對填寫圖片中的人進(jìn)行探測和二維姿勢預(yù)計,第二部份則負(fù)擔(dān)依據(jù)人體探測框圖并且二維人體姿勢熱圖 預(yù)計出每個人的一定三維人體姿勢。這2個部份是單獨訓(xùn)練的,第一部份只牽扯2D 任務(wù),能夠借用批量的2D 信息集進(jìn)行訓(xùn)練,以確保模型的魯棒性。
在第二部份中,填寫的 AGR 中已然不含蓋填寫圖片中人物外貌和背景的數(shù)據(jù),而為了確保模型對相機位姿并且人體姿勢有很強的泛化功能,本工作提出了一類訓(xùn)練信息形成方略。在形成訓(xùn)練樣件時,會從人體姿勢比較充足的信息集 MuCo-3DHP 中隨機挑選許多人體姿勢并擺放在地面上,再通過隨機設(shè)置相機的位姿便可形成對應(yīng)的人體探測框圖并且二維人體姿勢熱圖。
為了更好地預(yù)計一定三維人體姿勢,本工作還引入了人體根節(jié)點預(yù)計網(wǎng)絡(luò)(Root Estimation Network,簡稱 REN)并且人體姿勢預(yù)計網(wǎng)絡(luò)(Pose Estimation Network,簡稱 PEN)分別負(fù)擔(dān)對人體根節(jié)點進(jìn)行定位并且預(yù)計其它關(guān)節(jié)點的位子,如圖3所示。
圖3. 本工作提出的以抽象幾何表示(AGR)為旁邊表示的三維人體姿勢預(yù)計方式VirtualPose的過程圖。
04
試驗論斷
本工作在2個基準(zhǔn)信息集上評價了本文的方式,VirtualPose 均到達(dá)了最好程度以及擁有強力的跨信息集泛化本領(lǐng)。表1展現(xiàn)了在 CMU-Panoptic 上的體現(xiàn),評估指標(biāo)是預(yù)判姿勢與真正姿勢的平均關(guān)節(jié)偏差值,單位為毫米。
表1. 本工作的方式與現(xiàn)有工作在CMU-Panoptic信息集上的定量偏差結(jié)果(越少越好)。
表2展現(xiàn)了 MuPoTS-3D 信息集上不同方式的結(jié)果,這類方式都只在 MuCo-3DHP 信息集并且 COCO 信息集上訓(xùn)練。本文的方式比其余方式獲取了更好的 PCK 確切率,標(biāo)明 VirtualPose 擁有較強的泛化功能,證明了以 AGR 為旁邊表示并形成批量充足的 <AGR, Pose>信息進(jìn)行訓(xùn)練的有效性。
表2. 本工作的方式與現(xiàn)有工作在MuPoTS-3D信息集上的定量結(jié)果(越大越好)。
圖4為本文的模型在 COCO 和 MuPoTS-3D 信息集上預(yù)計的三維姿勢,能夠看見本工作的方式能確切地預(yù)計出每個人的三維姿勢并且一定位子,對圖片背景并且人的姿勢都非常魯棒。而在圖中的人被遮擋如圖4(b),或人體身高與訓(xùn)練信息不一致如圖4(c) 的狀況下,模型也較易顯現(xiàn)錯誤。
圖4. 本工作的方式在COCO并且MuPoTS-3D信息集上的可視化結(jié)果。此中 (b) (c) 展現(xiàn)了落敗的例子。
05
總 結(jié)
本工作進(jìn)行了對現(xiàn)有基于深度學(xué)習(xí)的一定三維人體姿勢方式的泛化功能研發(fā),期望此研發(fā)能啟迪以后的工作多研究怎樣提高人體姿勢預(yù)計方式的泛化功能。其次,本工作提出了以抽象幾何表示為旁邊表示的方式,通過形成批量充足的成對 <AGR, Pose> 信息來訓(xùn)練三維人體姿勢預(yù)計模型。本方式具有超越現(xiàn)有方式的功能,特別是訓(xùn)練信息和測驗信息的情景差異較大的時候,這進(jìn)一步呈現(xiàn)了本方式在自然情景中的泛化功能并且實用性。
考慮文獻(xiàn)
[1] Tu, Hanyue, Chunyu Wang, and Wenjun Zeng. "Voxelpose: Towards multi-camera 3d human pose estimation in wild environment." European Conference on Computer Vision. Springer, Cham, 2020.
[2] Ma, Xiaoxuan, et al. "Context modeling in 3d human pose estimation: A unified perspective." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[3] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera distance-aware top-down approach for 3d multi-person pose estimation from a single rgb image." Proceedings of the IEEE/CVF international conference on computer vision. 2019.
[4] Lin, Jiahao, and Gim Hee Lee. "Hdnet: Human depth estimation for multi-person camera-space localization." European Conference on Computer Vision. Springer, Cham, 2020.
[5] Zhen, Jianan, et al. "Smap: Single-shot multi-person absolute 3d pose estimation." European Conference on Computer Vision. Springer, Cham, 2020.
圖文 | 蘇嘉俊
Computer Vision and Digital Art (CVDA)