3.2.1 视觉手势数据集 — 可穿戴隔空手势交互白皮书

视觉手势数据集以 RGB、深度或骨架为主要采集模态，自 1999 年 Marcel 数据集发布以来已积累 30 余个主流公开数据集，覆盖从静态手形识别到连续动作流检测的完整任务谱系。本节以对比为目的进行概述，为后续肌电数据集的设计分析提供视觉侧参照。

范式分类

依据设计目标，视觉手势数据集可归纳为五种范式。

范式	数量	核心目标	代表数据集
功能操控型	9	人机交互指令识别	HaGRID、Jester、EgoGesture、IPN Hand、NvGesture
符号完备型	8	覆盖特定符号体系全部类别	Marcel、ASL 指拼、LaRED、交警手势
语言语料型	5	手语机器翻译语料	RWTH PHOENIX、CSL、DEVISIGN
姿态估计型	4	手部 3D 关节坐标回归	RHD、BigHand2.2M、FreiHAND
场景分割型	2	手部像素级分割与手-物交互	EgoHands、EgoHOS

数据集交互浏览器 · 28 个主要数据集独立窗口 ↗

视觉数据集的演变呈现三个明显趋势，与肌电数据集的设计问题形成对照：

规模持续扩张。从 Marcel 的约 900 个样本到 HaGRID 的 108 万张图像，23 年间增幅超过千倍，但样本规模的提升并未同步解决跨数据集泛化能力弱的问题。

任务从分类转向回归与连续识别。RHD、FreiHAND 等数据集推动了从离散类别分类到关节坐标回归的范式转变；IPN Hand、LD-ConGR 则将连续流中的无过渡手势检测推至前沿，这两个方向在肌电领域均有直接对应。

采集场景从受控走向自然。早期数据集以白色背景、固定相机为主，近年数据集普遍引入复杂背景、多光照条件和第一人称视角，采集环境的真实化程度显著提升。