视觉手势数据集以 RGB、深度或骨架为主要采集模态,自 1999 年 Marcel 数据集发布以来已积累 30 余个主流公开数据集,覆盖从静态手形识别到连续动作流检测的完整任务谱系。本节以对比为目的进行概述,为后续肌电数据集的设计分析提供视觉侧参照。
范式分类
依据设计目标,视觉手势数据集可归纳为五种范式。
| 范式 | 数量 | 核心目标 | 代表数据集 |
|---|---|---|---|
| 功能操控型 | 9 | 人机交互指令识别 | HaGRID、Jester、EgoGesture、IPN Hand、NvGesture |
| 符号完备型 | 8 | 覆盖特定符号体系全部类别 | Marcel、ASL 指拼、LaRED、交警手势 |
| 语言语料型 | 5 | 手语机器翻译语料 | RWTH PHOENIX、CSL、DEVISIGN |
| 姿态估计型 | 4 | 手部 3D 关节坐标回归 | RHD、BigHand2.2M、FreiHAND |
| 场景分割型 | 2 | 手部像素级分割与手-物交互 | EgoHands、EgoHOS |
32 个数据集全览
代表性数据集详述
静态手势数据集
Marcel(1999)是最早的公开静态手势数据集之一,包含 6 种手势(A、B、C、Five、Point、V),每种手势均提供单色背景与复杂背景两批数据,图像分辨率约 70×70 至 70×80 像素,奠定了早期手势识别算法评估的基准范式。
美国手语拼写数据集(ASL,2011)由 Pugeault 和 Bowden 使用 Kinect 深度传感器采集,包含 24 种手势(A–Z 中除 J 和 Z 外),由 5 名表演者完成,每种手势约 500 张 RGB 图像与深度图像,总计 60,000 幅。
MU HandImages ASL(2011)由 Massey 大学制作,涵盖美国手语中的 10 个数字与 26 个字母,共 36 种手势,5 名表演者,2,515 幅图像。采集时使用绿幕背景并模拟多种光照条件,以减少背景干扰。
LaRED(2014)以 27 个基础手势为核心,每个基础手势衍生出 3 种不同朝向,共 81 类手势。由 10 名表演者(男女各 5 名)完成采集,每类手势 300 个样本,包含 RGB 图像、深度图像和二值化掩模图像,总计 243,000 张。
Senz3D(2015)由意大利帕多瓦大学使用 Creative Senz3D 设备采集,包含 11 种手势,4 名表演者,每种手势每人 30 次,共 1,320 张图像。每种手势提供 RGB 图像、深度图像与置信度图像三种模态,分辨率 640×480。
动态手势与手语数据集
RWTH PHOENIX Weather(2012/2014)是德国亚琛工业大学录制的德语手语数据集,视频来自凤凰公共电视台天气预报节目,由 9 名表演者完成,共 6,841 句手语视频,帧率 25fps,分辨率 210×260,是目前最常用的手语视频数据集之一。
CSL 中国手语系列(2015)由中国科学技术大学利用 Kinect 采集,分为孤立手势识别数据集(500 类单词,每类 250 个样本)和连续手势识别数据集(100 类句子,每类 50 个样本),均由 50 名表演者完成,包含 RGB、深度和骨架三种模态。
DEVISIGN(2014)由中国科学院计算技术研究所构建,涵盖中国手语全部 4,414 个标准词汇,由 30 名表演者(13 男 17 女)完成采集,共 331,050 个词汇数据,包含 RGB、深度及骨架三种模态。公开子集包括 DEVISIGN-G(36 类,432 样本)、DEVISIGN-D(500 类,6,000 样本)和 DEVISIGN-L(2,000 类,24,000 样本)。
CGD 系列(2011/2013/2016)是 ChaLearn 手势挑战赛官方数据集,横跨三个版本持续演进。CGD2011 包含 30 种手势,50,000 个样本,涵盖 9 大类动作(生活手势、哑剧、舞蹈、无意识动作、手语、信号等);CGD2013 引入 RGB、深度、掩模、骨架、音频五种模态,包含 20 类意大利手势;CGD2016 规模扩张至 249 类、47,933 个样本,同时设计孤立手势(IsoGD)和连续手势(ConGD)双数据集。
SKIG(2013)由谢菲尔德大学采集,包含 10 种动态手势,2,160 段序列(RGB+深度各 1,080 段)。数据集在 6 种场景中采集,每种手势使用 3 种手掌形态(握拳、食指伸出、五指张开)× 3 种背景 × 2 种光照条件,适合动态手势识别研究。
EgoGesture(2017)由中国科学院自动化研究所发布,是以第一视角采集的多模态大规模连续手势数据集,包含 83 类手势,24,161 个样本,50 名表演者,覆盖 4 个室内场景和 2 个室外场景(含步行状态),提供 RGB 和深度两种模态。
MSRC-12(2012)由微软研究院剑桥实验室通过 Kinect 采集,包含 12 类手势(标准动作与隐喻动作各 6 类),30 名表演者,共 594 个骨架序列、719,359 帧关节点数据,以 CSV 格式提供 20 个关节点坐标。
NvGesture(2016)由 NVIDIA 提出,专为驾驶环境下人机交互设计,包含 25 类手势,1,532 段视频,20 名表演者。通过 SoftKinetic 深度相机、立体红外相机等多传感器采集,提供 RGB、深度和红外三种模态,帧率 30fps,分辨率 320×240。
Jester(2019)由 20BN 公司制作,包含 27 类手势,148,092 段视频,表演者在笔记本摄像头或网络摄像头前完成手势,背景、光照和人物差异极大,是目前规模最大的前置摄像头手势数据集之一。
HaGRID(2022)包含 33 类手势,1,086,158 张 FullHD(1920×1080)RGB 图像,34,730 名独特受试者,年龄 18–65 岁,主要在室内采集,光照变化丰富,受试者距相机 0.5–4 米,适用于视频会议、智能家居等场景。
IPN Hand(2020)包含 13 类静态和动态手势,4,000+ 个手势实例,50 名受试者。核心设计特点是取消手势间的"中立位休止",受试者在单段视频中连续执行 21 个手势,穿插随机自然动作,是最贴近真实使用场景的连续手势数据集之一。
交警手势数据集(2007)根据中华人民共和国公安部交通警察手势信号通告制作,包含 8 类交警指挥手势,21 段视频,3,354 个样本,涵盖教室、公园、停车场、马路等多种场景,表演者着黑色衣裤或交警服装。
主要发展趋势
视觉数据集的演变呈现三个明显趋势,与肌电数据集的设计问题形成对照:
规模持续扩张。从 Marcel 的约 900 个样本到 HaGRID 的 108 万张图像,23 年间增幅超过千倍,但样本规模的提升并未同步解决跨数据集泛化能力弱的问题。
任务从分类转向回归与连续识别。RHD、FreiHAND 等数据集推动了从离散类别分类到关节坐标回归的范式转变;IPN Hand、LD-ConGR 则将连续流中的无过渡手势检测推至前沿,这两个方向在肌电领域均有直接对应。
采集场景从受控走向自然。早期数据集以白色背景、固定相机为主,近年数据集普遍引入复杂背景、多光照条件和第一人称视角,采集环境的真实化程度显著提升。