3.2.1

视觉手势数据集


视觉手势数据集以 RGB、深度或骨架为主要采集模态,自 1999 年 Marcel 数据集发布以来已积累 30 余个主流公开数据集,覆盖从静态手形识别到连续动作流检测的完整任务谱系。本节以对比为目的进行概述,为后续肌电数据集的设计分析提供视觉侧参照。

范式分类

依据设计目标,视觉手势数据集可归纳为五种范式。

范式数量核心目标代表数据集
功能操控型9人机交互指令识别HaGRID、Jester、EgoGesture、IPN Hand、NvGesture
符号完备型8覆盖特定符号体系全部类别Marcel、ASL 指拼、LaRED、交警手势
语言语料型5手语机器翻译语料RWTH PHOENIX、CSL、DEVISIGN
姿态估计型4手部 3D 关节坐标回归RHD、BigHand2.2M、FreiHAND
场景分割型2手部像素级分割与手-物交互EgoHands、EgoHOS

代表性数据集对比

数据集年份类别数样本规模模态范式
Marcel19996~900 张RGB符号完备型
ASL 指拼20112460,000 帧RGB+深度符号完备型
交警手势200783,354 样本RGB符号完备型
MSRC-12201212719,359 帧骨架功能操控型
NvGesture2016251,532 段RGB+深度+红外功能操控型
EgoGesture20178324,161 样本RGB+深度功能操控型
RHD201743,986 帧合成渲染姿态估计型
Jester201927148,092 段RGB功能操控型
FreiHAND2019130,240 帧RGB姿态估计型
IPN Hand2020134,000+ 样本RGB功能操控型
CGD 2016201624947,933 样本RGB+深度功能操控型
HaGRID2022331,080,000 张RGB功能操控型
LD-ConGR20221044,887 实例RGB+深度功能操控型
RWTH PHOENIX20121,200+ 词6,841 句RGB语言语料型
EgoHOS202211,243 帧RGB场景分割型
数据集交互浏览器 · 28 个主要数据集 独立窗口 ↗

主要发展趋势

视觉数据集的演变呈现三个明显趋势,与肌电数据集的设计问题形成对照:

规模持续扩张。从 Marcel 的约 900 个样本到 HaGRID 的 108 万张图像,23 年间增幅超过千倍,但样本规模的提升并未同步解决跨数据集泛化能力弱的问题。

任务从分类转向回归与连续识别。RHD、FreiHAND 等数据集推动了从离散类别分类到关节坐标回归的范式转变;IPN Hand、LD-ConGR 则将连续流中的无过渡手势检测推至前沿,这两个方向在肌电领域均有直接对应。

采集场景从受控走向自然。早期数据集以白色背景、固定相机为主,近年数据集普遍引入复杂背景、多光照条件和第一人称视角,采集环境的真实化程度显著提升。