小型微型计算机系统Journal of Chinese C o m p u t e r Systems 2021年6月第6期 V o l.42 N o.6 2021
深度图像中的3D手势姿态估计方法综述
王丽萍、汪成\邱飞岳u,章国道1
U浙江工业大学计算机科学与技术学院,杭州310023)
2(浙江工业大学教育科学与技术学院,杭州310023)
E-mail :690589058@ qq. c o m
摘要:3D手势姿态估计是计算机视觉领域一个重要的研究方向,在虚拟现实、增强现实、人机交互、手语理解等领域中具有 重要的研究意义和广泛的应用前景_深度学习技术已经广泛应用于3D手势姿态估计任务并取得了重要研究成果,其中深度图 像具有的深度信息可以很好地表示手势纹理特征,深度图像已成为手势姿态估计任务重要数据源.本文首先全面阐述了手势姿 态估计发展历程、常用数据集、数据集标记方式和评价指标;接着根据深度图像的不同展现形式,将基于深度图像的数据驱动手 势姿态估计方法分为基于简单2D深度图像、基于3D体素数据和基于3D点云数据,并对每类方法的代表性算法进行了概括与 总结;最后对手势姿态估计未来发展进行了展望.
关键词:3D手势姿态估计;深度学习;深度图像;虚拟现实;人机交互
中图分类号:T P391 文献标识码:A文章编号:1000-1220(2021)06-1227■(»
Survey of 3D Hand Pose Estimation Methods Using Depth Map
W A N G Li-ping' ,W A N G C h e n g1 ,Q I U Fei-yue1'2,Z H A N G G u o-d a o1
1 (College of Computer Science and Technology .Zhejiang University of Technology .Hangzhou 310023 ’China)
2(College of Education Science and Technology.Zhejiang University of Technology,Hangzhou 310023,China)
Abstract:3D han d pose estimation is an important research direction in the field of computer vision .which has essencial research sig­nificance and wide application prospects in the fields of virtual reality,a u g m ented reality,h u m a n-c o m p u t e r interaction and sign lan­guage understanding. D e e p learning has been widely used in 3D h and pose estimation tasks and has achieved considerable results. A-m o n g t h e m,the depth information contained in the depth image can well represent the texture characteristics of the h and poses,and the depth image has b e c o m e an important data source for han d pose estimation tasks. Firstly,development history,b e n c h m a r k data sets, marking
methods and evaluation metrics of hand pose estimation were introduced. After that,according to the different presentation forms of depth maps,the data-driven hand pose estimation methods based on depth images are divided into simple 2D depth m a p based m e t h o d s,3D voxel data based methods and 3D point cloud data based m e t h ods,and w e further analyzed and su m m a r i z e d the represent­ative algorithms of them. A t the en d of this paper,we discussed the development trend of hand pose estimation in the future.
K e y w o r d s:3D hand pose estimation;deep learning;depth m a p;virtual reality;human-c o m p u t e r interaction
i引言
手势姿态估计是指从输人的图像或者视频中精确定位手 部关节点位置,并根据关节点之间的位置关系去推断出相应 的手势姿态.近年来,随着深度学习技术的发展,卷积神经网 络(Convolution Neural N e t w o r k s,C N N)'1-推动了计算机视觉 领域的快速发展,作为计算机视觉领域的一个重要分支,手势 姿态估计技术引起了研究者广泛关注.
随着深度学习技术的快速发展和图像采集硬件设备的提 升,基于传统机器学习的手势姿态估计模型逐渐被基于深度 学习的估计模型所取代,国内外众多研究机构相继开展了针 对该领域的学习研究,有效推
动了手势姿态估计技术的发展. 手势姿态估计大赛“H a n d s 2017”[2]和“Ha n ds2019”[3]吸引了国内外众多研究者们参与,综合分析该项赛事参与者提出的 解决方案,虽然不同的方法在计算性能和手势姿态估计精度 上各有差异,但所有参赛者都是使用深度学习技术来解决手 势姿态估计问题,基于深度学习的手势姿态估计已经成为该 领域主流发展趋势.
除此之外,潜在的市场需求也是促进手势姿态技术快速 发展的原因之一.手势姿态估计可广泛应用于虚拟现实和增 强现实中,手势作为虚拟现实技术中最重要的交互方式之一, 可以为用户带来更好的沉浸式体验;手势姿态估计还可以应 用于手势识别、机器人抓取、智能手机手势交互、智能穿戴等 场景.由此可见,手势姿态估计技术将给人类的生活方式带来 极大的改变,手势姿态估计技术已成为计算机视觉领域中重 点研究课题,对手势姿态估计的进一步研究具有非常重要的
收稿日期:2020-丨1-27收修改稿日期:2021~01-14基金项目:浙江省重点研发计划基金项目(2018C01080)资助.作者简介:王丽萍,女,1964年生,博士,教授,博士生导师,C C F会员,研究方向为计算智能、决策优化,计算机视觉等;汪成,男,1996年生,硕士研究生,研究方向为 计算机视觉、人机交互、虚拟现实;邱飞岳,男,1%5年生,博士,教授,博士生导师,C C F会员,研究方向为智能教育、智能计算、虚拟现实;章国道,男.1988年生,博士研究生,C C F会员,研究方向为计算机视觉、人机交互、过程挖掘.
1228小型微型计算机系统2021 年
意义.
手势姿态估计技术发展至今已取得大量研究成果,有关 手势姿态估计的研究文献也相继由国内外研究者提出.Erol 等人[41第一次对手势姿态估计做了详细的综述,对2007年之 前的手势姿态估计方法进行了分析比较,涉及到手势的建模、面临的问题挑战、各方法的优缺点,并且对未来的研究方向进 行了展望,但该文献所比较的33种方法都是使用传统机器学 习方法实现手势姿态估计,其中只有4种方法使用了深度图 像来作为数据源,且没有讲述数据集、评价标准、深度图像、深 度学习等现如今手势姿态估计主流研究话题;S u p a n c i c等 人[5]以相同的评价指标对13种手势姿态估计方法进行了详 细的对比,强调了数据集的重要性并创建了一个新的数据集;
E m a d161对2016年前基于深度图像的手势姿态估计方法做了 综述,该文献也指出具有标记的数据集对基于深度学习的手 势姿态估计的重要性;从2016年-2020年,手势姿态估计技术 日新月异,基于深度学习的手势姿态估计方法相继被提出,Li 等人[7]对手势姿态估计图像采集设备、方法模型、数据集的 创建与标记以及评价指标进行综述,重点指出了不同的图像 采集设备之间的差异对手势姿态估计结果的影响.除了以上 4篇文献,文献[8-12]也对手势姿态估计的某一方面进行了 总结概要,如文献[8]重点讲述了手势姿态估计数据集创建 及标记方法,作者提出半自动标记方法,并创建出了新的手势 姿态估计数据集;文献[9]提出了 3项手势姿态估计挑战任 务;文献[10]对2017年之前的数据集进行了评估对比,指出 了以往数据集的不足之处,创建了数据量大、标记精度髙、手 势更为丰富的数据集“Bighand 2. 2M”;文
献[11 ]对2017手 势姿态估计大赛排名前11的方法进行的综述比较,指出了 2017年前髙水准的手势姿态估计技术研究现状,并对未来手 势姿态估计的发展做出了展望.
以上所提到的文献是迄今为止手势姿态估计领域较为全 面的研究综述,但这些文献存在一些共同的不足:1)没有讲 述手势姿态估计发展历程;2)对手势姿态估计方法分类不详 细;3)对手势姿态估计种类说明不够明确;4)没有涉及最新 提出的新方法,如基于点云数据和体素数据方法.针对以上存 在的问题,本文在查阅了大量手势姿态估计相关文献基础上,对手势姿态估计方法与研究现状进行了分类、梳理和总结后 得出此文,旨在提供一份更为全面、详细的手势姿态估计研究 综述.
本文结构如下:
本文第2节介绍相关工作,包括手势姿态估计发展历程、手势姿态估计任务、手势建模、手势姿态估计分类和方法类型;第3节介绍手势姿态估计常用数据集、数据集标记方式和 手势姿态估计方法评价指标;第4节对基于深度图像的手势 姿态估计方法进行详细分类与总结;第5节总结本文内容并 展望了手势姿态估计未来的发展趋势.
2相关工作
2.1手势姿态估计发展历程
手势姿态估计技术的发展经历了 3个时期:基于辅助设 备的手势姿态估计、基于传统机器学习的手势姿态估计和基于深度学习的手势姿态估计,如图1所示.
图1手势姿态估计发展历程图
Fig.1D ev el op m e nt history of hand pose estimation
1) 基于辅助设备的手势姿态估计.该阶段也称为非视觉 手势姿态估计时期,利用硬件传感器设备直接获取手部关节
点位置信息.其中较为经典解决方案为Dexvaele等人[13i提出
的数据手套方法,使用者穿戴上装有传感器设备的数据手套,
通过手套中的传感器直接获取手部关节点的坐标位置,然后
根据关节点的空间位置,做出相应的手势姿态估计;W a n g等
人[M]使用颜手套来进行手势姿态估计,使用者穿戴上特制
颜手套来捕获手部关节的运动信息,利用最近颜相邻法
出颜手套中每种颜所在的位置,从而定位手部关节肢
体坐标位置.基于辅助设备的手势姿态估计具有一定优点,如
3d预测专家推荐具有良好的鲁棒性和稳定性,且不会受到光照、背景、遮挡物
等环境因素影响,但昂贵的设备价格、繁琐的操作步骤、频繁
的维护校准过程、不自然的处理方式导致基于辅助设备的手
势姿态估计技术在实际应用中并没有得到很好地发展[15].
2) 基于传统机器学习的手势姿态估计该阶段也称
为基于计算机视觉的手势姿态估计时期,利用手部图像解决
手势姿态估计问题.在深度学习技术出现之前,研究者主要使
用传统机器学习进行手势姿态估计相关的工作,在这一阶段
传统机器学习主要关注对图像的特征提取,包括颜、纹理、
方向、轮廓等.经典的特征提取算子有主成分分析(Principal
C o m p o n e n t A n a l y s i s,P C A)、局部二值模式(Local Binary Pat­
terns ,L B P)、线性判别分析( Linear Discriminant Analysis ,
L D A)、基于尺度不变的特征(Scale Invariant Feature Trans­form, S I FT) 和方向梯度直方图 (Histogram of Oriented Gradi-
e n t,H O G)等.获得了稳定的手部特征后,再使用传统的机器
学习算法进行分类和回归,常用的方法有决策树、随机森林和
支持向量机等.
3) 基于深度学习的手势姿态估计.随着深度学习技术的 发展,卷积神经网络大大颠覆了传统的计算机视觉领域,基于
深度学习的手势姿态估计方法应运而生.文献[21 ]以深度图
像作为输人数据源,通过卷积神经网络预测输出手部关节点
的三维坐标;文献[22]利用深度图的二维和三维特性,提出
了一种简单有效的3D手势姿态估计,将姿态参数分解为关
节点二维热图、三维热图和三维方向矢量场,通过卷积神经网
络进行多任务的端到端训练,以像素局部投票机制进行3
D
图2 21关节点手部模型图
F ig . 2 21 joints  hand  model
2.3手势姿态估计分类
本小节我们将对目前基于深度学习的手势姿态估计种类 进行说明.从不同的角度以不同的分类策略,可将手势姿态估 计分为以下几种类型:
2.3.1 2D /3D 手势姿态估计
根据输出关节点所处空间的维度,可将手势姿态估计分 为2D 手势姿态估计和3D 手势姿态估计.
2D 手势姿态估计指的是在2D 图像平面上显示关节点 位置,关节点的坐标空间为平面U ,y ),如图3所示;3D 手势 姿态估计指的是在3D 空间里显示关节点位置,关节点的坐 标空间为(x ,y ,z ),如图4所示.
图3 2D 手势姿态估计图 图4 3D 手势姿态估计图
Fig . 3 2D  hand  pose
F ig . 4 3D  hand  pose
estim ation
estim ation
在手势姿态估计的领域中,相较于2D 手势姿态估计,针 对3D 手势姿态估计的研究数量更多,造成这一现象的主要
手势姿态估计;文献[23]将体素化后的3D 数据作为3D C N N  网络的输人,预测输出生成的体素模型中每个体素网格是关 节点的可能性;文献[24]首次提出使用点云数据来解决手势 姿态估计问题,该方法首先利用深度相机参数将深度图像转 化为点云数据,再将标准化的点云数据输人到点云特征提取 神经网络提取手部点云数据特征,进而回归出手部关节 点位置坐标.将深度学习技术引人到手势姿态估计任务中,无 论是在预测精度上,还是在处理速度上,基于深度学习手势姿 态估计方法都比传统手势姿态估计方法具有明显的优势,基 于深度神经网络的手势姿态估计已然成为了主流研究趋势. 2.2手势建模
手势姿态估计的任务是从给定的手部图像中提取出一组 预定义的手部关节点位置,目标关节点的选择一般是通过参 考真实手部关节点而设定的.根据建模方式的不同,关节点的 个数往往也不同,常见的手部模型关节点个数为14、16、21 等.在手势姿态估计领域,手部模型关节点的个数并没有一个 统一的标准,
在大多数手势姿态估计相关的论文和手势姿态 估计常用数据集中,往往采用21关节点的手部模型, 如图2所示.
原因为2D 手势姿态估计的应用范围小,基于2D 手势姿态估 计的实际应用价值不大[7],而3D 手势姿态估计可以广泛应 用于虚拟现实、增强现实、人机交互、机器人等领域,吸引了众 多大型公司、研究机构和研究人员致力于3D 手势姿态估计 的研究[29%.
由此可见,基于深度图像的3D 手势姿态估计已经成为 手势姿态估计领域主流研究趋势,本文也是围绕深度图像、深 度学习、3D 手势姿态估计这3个方面进行总结叙述.2.3.2
R G B
/Depth /R G B -D
根据输入数据类型的不同,可将手势姿态估计分为:基于
R G
B 图像的手势姿态估计、基于深度图像的手势姿态估计、
基于R G B -D (R G B
图像+ D e p t h m a p )图像的手势姿态估计;
其中,根据深度图像不同展现形式,将基于深度图像的手势姿 态估计进一步划分为:基于简单2D 深度图像、基于3D 体素 数据、基于3D 点云数据,如图5所示.
基于不同
数据形式 的手势姿 雜计方
m m
基于Dqptii Map 深®图 像的手势 姿态估计
:@iSDq)th Map
深度图多视角深度图 Multi View 体素Volume Voxel
点云
Point Cloud
2D Data
3DCNNs
基于RGB-D r Dqith Map |图像的手势姿态估计
RGB 图人手分割
图5
手势姿态估计方法分类图
F ig . 5 Classification  o f  hand  pose  estim ation  m ethods
2.4方法类型
文献[4]根据不同的建模途径和策略,将手势姿态估计 方法划分为模型驱动方法(生成式方法)[31~ ,和数据驱动方 法(判别式方法).研究者结合了模型驱动和数据驱动两种方
法的特点,提出混合式方法[3541];在本小节我们将对这3种 手势姿态估计方法类型进行简要概述.
2.4.1
模型驱动
模型驱动方法需要大量的手势模型作为手势姿态估计的 基础.该方法实现的过程为:首先,创建大量符合运动学原理 即合理的手势模型,根据输人的深度图像,选择一个最匹配当 前深度图像的手势模型,提出一个度量模板模型与输入模型 的差异的代价函数,通过最小化代价函数,到最接近的手势 模型.
2.4.2数据驱动
数据驱动方法需要大量的手势图像数据作为手势姿态估 计的基础.数据驱动方法所使用的图像数据可以是R G B 图
像、深度图像或者是R G B -D 图像中的任意一种或者多种类型 图像相结合.以深度图像为例,基于数据驱动的手势姿态估计 方法可以通过投喂特定标记的手势数据来训练,建立从观察 值到有标记手势离散集之间的直接映射.在这个过程中,根据 手势关节点结果值计算方式的不同,可以将基于数据驱动的
Hand PointNet SHPR-Net SO-HandNet Cascade PointNet
3D Data
基于RGB 图像的 手棘 纖十王丽萍等:深度图像中的3D 手势姿态估计方法综述
1229
1230小型微型计算机系统2021 年
手势姿态估计方法进一步分为基于检测和基于回归的方法.
2.4.3 混合驱动
模型驱动和数据驱动各有优势,模型驱动是基于固定手
势模型,手势姿态识别率高;数据驱动基于神经网络,不需要
固定手势模型,且对不确定手势和遮挡手势的鲁棒性髙.研究
者们结合了两种方法的特点,提出混合式方法解决手势姿态
估计问题.常见的混合式手势姿态估计方式有两种:1)先使
用模型驱动预估一个手势结果,若预估失败或者预估的结果
与手势模型相差较大,则使用数据驱动进行手势姿态估计,在
这种方法中,数据驱动只是作为一种备选方案当且仅在模型
驱动失败的情况下使用;2)先使用数据驱动预测出一个初始
的手势姿势结果,再使用模型驱动对预测的初始手势结果进
行优化.
3数据集和评价指标
数据集对有监督深度学习任务十分重要,对手势姿态估
计而言,规模大、标记精度髙、适用性强的手势姿态数据集不
仅能提供准确的性能测试和方法评估,还能推进手势姿态估
计研究领域的发展.目前常见3D手势姿态估计数据集有:
B ig Ha nd2. 2M[I0),N Y U[42).Dexter l[43i,M S R A14[441,I
C V L[451,
M S R A15 w,H a n d N e t[47】,M S R C[48],等,其中 I C V L、N Y U 和
M S R A15是使用最为广泛的手势姿态估计数据集,常用手势
姿态估计数据集相关信息如表1所示.
表1手势姿态估计数据集
Table 1H a n d pose estimation datasets
数据集发布
时间
图像
数量
类别数关节数
标记
方式
视角
图像
尺寸
I A S T A R20138703020自动3320 x240 Dexter 12013213715手动2320 x240
M S R A1420142400621手动3320x240
I C V L2014176041016半自动3320 x240
N Y U201481009236半自动3640 x480
M S R A15201576375921半自动3640 x480
M S R C2015102000122合成3512 x424 HandNet2015212928106自动3320x240 BigHand2.2M 2017  2.2M1021自动3640 x 480
F H A D2018105459621半自动1640 x480
3.1数据集标记方法
Y u a n等人指出创建大规模精准数据集的关键因素是快速、准确的标记方式.常用手势姿态数据集标记方式有四 种:手动标记、半自动标记、自动标记和合成数据标记.手动标 记方法因其耗时耗力且存在标记
错误情况,导致使用人工手 动标记的手势数据集规模小,不适合用于基于大规模数据驱 动的手势姿态估计方法;半自动标记方法有两种形式,一种是 先使用人工手动标记2D关节信息,再使用算法自动推断3D 关节信息;另一种是先使用算法自动推断出3D关节信息,再 使用人工手动对标记的3D关节信息进行修正,与全手动标 记方法相比,半自动标记方法具有高效性,适用于创建数据规 模大的数据集.
合成数据标记方法指的是使用图形图像应用程序,先基于先验手势模型生成仿真手势图像数据,同时自动标记3D
关节信息;与手动标记和半自动标记方法相比,合成数据标记
方法无需手工介人,有效提高了数据标记效率,适合于大规模
数据集的创建;但不足的是,合成的仿真数据无法全面有效地
反映真实手势姿态,合成手势数据集中存在手势扭曲、反关
节、关节丢失等不符合运动学规律的手势情形,导致丢失真实
手势特征.自动标记方法指的在采集手部图像时,使用外部传
感器设备对手势关节进行标记.文献[49]的A S T A R数据集
使用带有传感器数据手套对手部关节进行标记;B i g H a n d2.
2M数据集采用具有6D磁传感器的图像采集标记系统进行
自动标记.
3.2评价指标
3D手势姿态估计方法的评价指标主要包括:
1) 平均误差:在测试集图像中,所有预测关节点的平均 误差距离;以21个手势关节点模型为例,会生成21个单关节
点平均误差评测值,对21个单关节点平均误差求均值,得到
整个测试集的平均误差.
2)良好帧占比率:在一个测试图像帧中,若最差关节点 的误差值在设定的阈值范围内,则认为该测试帧为良好帧,测
试集中所有的良好帧之和占测试集总帧数的比例,称为良好
帧占比率.
其中,第1个评价指标反映的是单个关节点预测精准度,
平均误差越小,则说明关节定位精准度越高;第2个评价指标
反映的是整个测试集测试结果的好坏,在一定的阈值范围内,
单个关节的错误定位将造成其他关节点定位无效,该评价指
标可以更加严格反映手势姿态估计方法的好坏.
4基于深度图像手势姿态估计方法
深度图像具有良好的空间纹理信息,其深度值仅与手部
表面到相机的实际距离相关,对手部阴影、光照、遮挡等影响
因素具有较高的鲁棒性.基于深度学习和深度图像的手势姿
态估计方法属于数据驱动,通过训练大量的数据来学习一个
能表示从输人的深度图像到手部关节点坐标位置的映射关
系,并依据映射关系预测出每个关节点的概率热图或者直接
回归出手部关节点的二维或者三维坐标.
在本节中,将深度图像在不同数据形式下的3D手势姿
态估计方法分为:
1) 直接将深度图像作为简单2D图像,使用2D C N N s进 行3D手势姿态估计.
2)将深度图像转换成3D体素数据,使用3D C N N s进行 3D手势姿态估计.
3)将深度图像转换成3D点云数据,使用点云特征提取 网络提取手部点云数据特征,从而实现手部关节点定位.
4.1基于简单2D深度图像
早期C. X u等人[50]提出使用随机森林传统机器学习方
法直接从手部深度图像中回归出手势关节角度,随着深度学
习技术的提出,卷积神经网络在计算机视觉任务中取得了巨
大成就,与传统机器学习方法相比具有较大的优势.
表2详细列举了基于简单2D深度图像手势姿态估计代
表性算法相关信息.其中,受文献[51]启发,T o m p s o n%首次
6期王丽萍等:深度图像中的3D 手势姿态估计方法综述1231
提出将卷积神经网络应用于手势姿态估计任务中,他们使用 卷积神经网络生成能代表深度图像中手部关节二维概率分布 的热图,先从每幅热图中分别定位出每个关节点的2D 平面 位置,再使用基于模型的逆运动学原理从预估的2D 平面关 节和其对应的深度值估计出关节点三维空间位置.由于手势 复杂多样和手指之间具有高相似性,导致了从热图中预估出 的2D 关节点与真实关节点位置之间可能存在偏差,且当手 部存在遮挡时,深度值并不能很好地表示关节点在三维空间 中的深度信息.针对文献[42]中所存在的问题,G e 等人[52]提 出将手部深度图像投影到多个视图上,并从多个视图的热图 中恢复出手部关节点的三维空间位置,他们使用多视图 C N N s 同时为手部深度图像前视图、侧视图和俯视图生成热 图,从而更精准地定位手关节的三维空间位置.表2
基于简单2D 深度图手势姿态估计代表性算法对比 Table
2 Com parison  of  representative  algorithms
for
hand
pose  estimation  based  on
2D  depth  m a p
分类
算法名称
提出时间
算法
特点
平均误差(nun)
m j  I C V L  M S R A 15首次应用C N N ,关
ConvNet[42]
2014节点二维热图,逆
^
r e n
[55]
简 DeepPrior 单
2D  Multi-
深 V i e w -C N N [52] 度 图 像
[54]
D e n s e R e g 22]
P o s e -R E N [56]J G R -P 20[59]
运动学模型.
区域集成网络,检
2017测关节点三维13.39 7.63 •
位置.
2017
8.10 9.50
网络.
关节点二维热图,2018 多视图 C N N  定位 12.50 - 9.70
关节点三维位置.
逐像素估计,关节
2018 点二维、三维热图,10.20 7.30 7.20
单位矢量场.
謂迭倾测关节点三u  81    6 79 8 65
维位置.漏
8 讀 755
积网络.
O b e r w e g e r 等人使用卷积神经网络直接输出手部关节
点三维空间位置,他们认为网络结构对3D 手势姿态估结果 很重要,使用了 4种不同C N N 架构同时预测所有的关节点位 置,通过实验对比得出多尺寸方法对手部关节点位置回归效
果更好,同时他们在网络中加入3D 手势姿态先验信息预测 手部关节点位置,并使用了基于C N N 架构的关节点优化网络 对每一个预测的关键点进行更加精准的位置输出;除此之外, 为了进一步提升3D 手势姿态估计的准确性,他们在文献 [21]基础上提出使用迭代优化的方法多次修正手部关节点 位置,对DeepPrior[53]进行改进,提出DeepPrior + + [54]方法, 通过平移、旋转、缩放等方法增强手势姿态估计训练集数据, 以获得更多的可利用信息,并在手势特征提取网络中加人了 残差模块以进一步提升了 3D 手势姿态估计精度.
G u o
等人[55]提出基于区域集成的卷积神经网络架构 R E N .R E N
将卷积层的特征图分成多个局部空间块,并在全
连接层将局部特征整合在一起,与之前基于2D 热图、逆运动
学约束和反馈回路的手势姿态估计方法相比,R E N 基于单一 网络的方法直接检测出手部关节的三维位置,极大提高了手
势姿态估计的性能.然而,R E N 使用统一的网格来提取局部 特征区域,对所有特征都进行同等的处理,这并不能充分获得 特征图的空间信息和具有高度代表性的手势特性.针对该问 题,C h e n 等人[56]提出P o s e -R E N 网络进一步提高手势姿态估 计性能,他们基于R E N 网络预测的手势姿态,将预测的初始 手部姿态和卷积神经网络特征图结合,以提取更优、更具代表 性的手部姿态估计特征,然后根据手部关节拓扑结构,利用树 状的全连接对提取的特征区域进行层次集成,P o s e -R E N 网络 直接回归手势姿态的精准估计,并使用迭代级联方法得到最 终的手势姿态.
W a n 等人[22]提出一种密集的逐像素估计的方法,该方法 使用了沙漏网络Hourglass Network-571生成关节点2D 热图和
3D
热图以及三维单位矢量场,并由此推断出三维手部关节的 位置;他们在文献[58]提出自监督方法,从深度图像中估计
3D
手势姿态,与以往基于数据驱动的手势姿态估计方法不同
的是,他们使用41个球体近似表示手部表面,使用自动标记 的合成手势数据训练神经网络模型,用无标记的真实手势数 据对模型进行了微调,并在网络中采用多视图监督方法以减 轻手部自遮挡对手势姿态估计精度的影响.4.2基于3D 体素数据
2D  C N N
提取的深度图像特征由于缺乏3D 空间信息,不
适合直接进行3D 手势姿态估计.将深度图像的3D 体素表示
作为3D  C N N 的输人,从输入的3D 体素数据中提取关节点 特征,可以更好地捕获手的3D 空间结构并准确地回归手部 关节点3D 手势姿态[60].基于3D 体素数据手势姿态估计流 程如图6所示.
基于检测
图6基于体素数据手势姿态估计流程图 Fig
. 6
W o r k f l o w  of
hand
pose
estimation
based  o n
voxel
data
表3详细列举了基于3D 体素数据手势姿态估计代表性 算法相关信息,其中,G e 等人在文献[61 ]中首次提出使用3D
C N N s
解决3D 手势姿态估计问题,他们先使用D -T S D F [62]将
局部手部图像转换成3D 体素数据表现形式,设计了一个具 有3个三维卷积层、3个三维全连接层的3D 卷积神经网络架 构,用于提取手部体素数据三维特征,并基于提取的三维特征 回归出最终手部关节点三维空间位置;在文献[52]基础上,
G e
等人[63]提出利用完整手部表面作为从深度图像中计算手
势姿态的中间监督,进一步提升了 3D 手势姿态估计精度.
M o o n
等人[23]指出直接使用深度图像作为2D  C
N N
的输
入进行3D 手势姿态估计存在两个严重缺点:缺点1是2D 深 度图像存在透视失真的情况,缺点2是深度图和3D 坐标之 间的高度非线性映射,这种高度非线性映射会直接影响到手 部关节点位置的精准回归.为解决这些问题,他们提出将从深 度图像中进行3D 手势姿态估计的问题,转化为体素到体