手势数据集的构建并非数据的简单堆砌,其背后隐含着研究者对"什么是好的手势集"的根本判断。通过对主要手势数据集的系统梳理,可归纳出八种设计逻辑。
逻辑一:可辨识性优先
代表:Marcel(1999)、Senz3D(2015)
将手势集定位为算法评估基准,核心准则是所选手势在二维投影中轮廓差异最大化,通常以伸展手指数量(0 至 5 根)的均匀分布为依据,刻意排除视觉相似对(如 M 与 N 的手形)。手势语义服从于形状可辨识性。
逻辑二:符号系统完备性
代表:ASL 指拼(2011)、DEVISIGN(2014)
以符号体系的完整覆盖为目标,即便存在高度相似类别也不可省略。DEVISIGN 涵盖中国手语全部 4,414 个标准词汇,将完备性置于可辨识性之上。
逻辑三:笛卡尔积扩展
代表:LaRED(2014)
将空间朝向作为独立变量,27 个基础手势 × 3 种旋转朝向 = 81 类,应对用户在真实交互中姿态不固定的问题。
逻辑四:关节空间均匀采样
代表:RHD(2017)、BigHand2.2M(2017)、FreiHAND(2019)
彻底放弃离散类别,将手部状态视为 21 关节点构成的连续高维姿态空间,任务从分类转为回归,评估指标从准确率转为关节位置误差(毫米)。这是视觉手势研究最重要的范式转变之一。
逻辑五:语义动作组合
代表:HaGRID(2022)、NvGesture(2016)
以交互语义为设计起点,通过"倒置变体"等手法使静态标注数据支撑动态手势识别训练。核心原则是手势集的设计粒度应与目标交互任务的语义粒度对齐。
逻辑六:无过渡状态连续设计
代表:IPN Hand(2020)、LD-ConGR(2022)
传统数据集在手势间插入人为"休止符",IPN Hand 则要求受试者直接执行 21 个连续手势,不设停顿,使时序边界检测问题完全暴露。这是最贴近真实使用场景的设计。
其他逻辑
逻辑七(词素序列语料)以 RWTH PHOENIX、CSL 为代表,将数据集定位为手语机器翻译语料,评估指标为词错误率(WER),主要适用于手语与无障碍技术研究。逻辑八(法规标准驱动)以交警手势数据集为代表,类别构成完全由政府法规决定,适用于存在行业标准约束的特定场景。
典型设计案例
CGD 系列(2011–2016)
CGD 系列横跨三个版本,是少数在单一数据集谱系内完整呈现多种设计逻辑递进的案例。
CGD2011以 9 类功能语义为分类依据(Activity / Emblems / Sign Language / Signals 等),覆盖人类手势语义空间的全部功能类型,对应逻辑二的语义完备性设计。CGD2013在延续语义框架的基础上引入 RGB、深度、骨架、音频五种模态,是对逻辑二的多模态扩展。CGD2016规模扩张至 249 类,同时设计孤立手势(IsoGD)和连续手势(ConGD)双数据集,开始触及逻辑六的问题域——这是同一系列跨越多种设计范式的典型轨迹。
IPN Hand(2020):逻辑六的完整实现
IPN Hand 彻底取消手势间的"中立位休止":50 名受试者在单段视频中连续执行 21 个手势,穿插三次随机自然动作作为干扰。模型必须同时解决时序边界检测、过渡段信号归类和自然动作辨别三个在传统数据集中被人为回避的问题。
EgoGesture(2017):视角与场景多样性驱动
EgoGesture 采用第一人称视角,覆盖 6 个场景(4 室内 + 2 室外),关键设计在于"行走状态"场景——用户步行时执行手势,摄像头随身体晃动,手势识别需对抗背景运动与手部运动的混叠。这一逻辑可视为笛卡尔积扩展(逻辑三)向"手势 × 场景 × 用户状态"的延伸。
小结
八种逻辑对肌电手势数据集的兼容程度不尽相同。
| 设计逻辑 | 兼容性 | 说明 |
|---|---|---|
| 逻辑一:可辨识性优先 | 高 | 区别仅在于可辨识空间从视觉轮廓换成 sEMG 信号特征 |
| 逻辑二:符号系统完备性 | 中 | 肌电的"完备"是运动功能覆盖,而非语言符号完备 |
| 逻辑三:笛卡尔积扩展 | 中 | 手臂位置影响 sEMG 分布,但尚无显式笛卡尔积设计 |
| 逻辑四:关节空间均匀采样 | 高 | Ninapro DB8 连续关节解码即此逻辑的肌电实现 |
| 逻辑五:语义动作组合 | 低 | "倒置变体"为视觉特有概念,肌电无对应机制 |
| 逻辑六:无过渡状态连续设计 | 高 | sEMG 过渡段混叠与视觉连续识别挑战同构 |
| 逻辑七:词素序列语料 | 不适用 | 手语翻译导向,肌电领域无对应任务形态 |
| 逻辑八:法规标准驱动 | 低 | 医疗标准存在但尚未成为主流肌电数据集的设计约束 |