视觉手势数据集以 RGB、深度或骨架为主要采集模态,自 1999 年 Marcel 数据集发布以来已积累 30 余个主流公开数据集,覆盖从静态手形识别到连续动作流检测的完整任务谱系。本节以对比为目的进行概述,为后续肌电数据集的设计分析提供视觉侧参照。
范式分类
依据设计目标,视觉手势数据集可归纳为五种范式。
| 范式 | 数量 | 核心目标 | 代表数据集 |
|---|---|---|---|
| 功能操控型 | 9 | 人机交互指令识别 | HaGRID、Jester、EgoGesture、IPN Hand、NvGesture |
| 符号完备型 | 8 | 覆盖特定符号体系全部类别 | Marcel、ASL 指拼、LaRED、交警手势 |
| 语言语料型 | 5 | 手语机器翻译语料 | RWTH PHOENIX、CSL、DEVISIGN |
| 姿态估计型 | 4 | 手部 3D 关节坐标回归 | RHD、BigHand2.2M、FreiHAND |
| 场景分割型 | 2 | 手部像素级分割与手-物交互 | EgoHands、EgoHOS |
代表性数据集对比
| 数据集 | 年份 | 类别数 | 样本规模 | 模态 | 范式 |
|---|---|---|---|---|---|
| Marcel | 1999 | 6 | ~900 张 | RGB | 符号完备型 |
| ASL 指拼 | 2011 | 24 | 60,000 帧 | RGB+深度 | 符号完备型 |
| 交警手势 | 2007 | 8 | 3,354 样本 | RGB | 符号完备型 |
| MSRC-12 | 2012 | 12 | 719,359 帧 | 骨架 | 功能操控型 |
| NvGesture | 2016 | 25 | 1,532 段 | RGB+深度+红外 | 功能操控型 |
| EgoGesture | 2017 | 83 | 24,161 样本 | RGB+深度 | 功能操控型 |
| RHD | 2017 | — | 43,986 帧 | 合成渲染 | 姿态估计型 |
| Jester | 2019 | 27 | 148,092 段 | RGB | 功能操控型 |
| FreiHAND | 2019 | — | 130,240 帧 | RGB | 姿态估计型 |
| IPN Hand | 2020 | 13 | 4,000+ 样本 | RGB | 功能操控型 |
| CGD 2016 | 2016 | 249 | 47,933 样本 | RGB+深度 | 功能操控型 |
| HaGRID | 2022 | 33 | 1,080,000 张 | RGB | 功能操控型 |
| LD-ConGR | 2022 | 10 | 44,887 实例 | RGB+深度 | 功能操控型 |
| RWTH PHOENIX | 2012 | 1,200+ 词 | 6,841 句 | RGB | 语言语料型 |
| EgoHOS | 2022 | — | 11,243 帧 | RGB | 场景分割型 |
主要发展趋势
视觉数据集的演变呈现三个明显趋势,与肌电数据集的设计问题形成对照:
规模持续扩张。从 Marcel 的约 900 个样本到 HaGRID 的 108 万张图像,23 年间增幅超过千倍,但样本规模的提升并未同步解决跨数据集泛化能力弱的问题。
任务从分类转向回归与连续识别。RHD、FreiHAND 等数据集推动了从离散类别分类到关节坐标回归的范式转变;IPN Hand、LD-ConGR 则将连续流中的无过渡手势检测推至前沿,这两个方向在肌电领域均有直接对应。
采集场景从受控走向自然。早期数据集以白色背景、固定相机为主,近年数据集普遍引入复杂背景、多光照条件和第一人称视角,采集环境的真实化程度显著提升。