逻辑一 可辨识性优先
代表:Marcel 1999 · Senz3D 2015
拳头(全合) 平掌(全展) 两指V 单指指点 捏握C 字母b
核心准则:伸指数(0-5根伸展手指)均匀分布,轮廓形状在2D投影中差异最大化。刻意排除视觉相似对(如M/N),确保分类器评估有效性。手势语义无所谓,形状识别优先。
逻辑二 符号系统完备性
代表:ASL指拼 2011 · MU HandImages 2011 · DEVISIGN 2014
A-Z 26个字母
0-9 10个数字
J/Z动态→取最终位置替代
核心准则:必须覆盖语言系统的每一个符号单元,即便存在高相似类(M/N、S/E)也不可省略。动态字母以终止静态姿态替代纳入。完备性高于可辨识性。
逻辑三 笛卡尔积扩展
代表:LaRED 2014
27种
基础手势
×
3种
旋转朝向
=
81类
朝向被视为独立变量:基础姿态、绕X轴旋转90°(侧倾)、绕X+Z轴旋转90°(翻转)。真实场景中用户不总保持正面,朝向多样性是HMI场景不可忽视的自然变量。
逻辑四 关节空间均匀采样
代表:RHD 2017 · BigHand2.2M 2017 · FreiHAND 2019
彻底放弃「手势类别」 → 转向21关节点的高维姿态空间
设计协议:系统化预设姿 + 随机自然运动 + 自我中心子集
评估指标:关节位置误差(mm),非分类准确率
识别范式→回归范式的里程碑转变。手势不再是离散类别,而是连续姿态空间中的一个点,模型需预测21个关节的精确3D坐标。
逻辑五 语义动作组合
代表:HaGRID 2022 · NvGesture 2016
stop + stop_inv = 向右滑动 palm fist palm = 拖拽放置
「倒置变体」设计:stop/stop_inverted是HaGRID独有创新,同一手形旋转180°成为新类别,静态帧对组合即可支撑动态手势识别,一举解决静态数据集无法训练动态识别的根本矛盾。
逻辑六 无过渡状态连续设计
代表:IPN Hand 2020 · LD-ConGR 2022
传统数据集:手势A → [停顿回中] → 手势B
IPN Hand:手势A → 直接→ 手势B(无中间休止位)
每视频含21个连续手势 + 自然非手势动作干扰
这是最接近真实交互的设计:触屏操作时用户不会将手退回中立位再做下一个手势。无过渡状态使时序边界检测极难,是当前连续HGR最大挑战。
逻辑七 词素序列语料设计
代表:RWTH PHOENIX 2012 · CSL 2015
手势序列 → 词素gloss序列 → 口语文本翻译
「天气预报」领域词汇约1,200+,非手势类别
由聋人母语者标注,非实验室志愿者
这是唯一以「翻译」而非「分类」为任务目标的数据集系列。词素标注而非手形分类,评估指标是词错误率(WER)而非准确率。
逻辑八 法规标准驱动
代表:交警手势数据集 2007
直行 左转 右转 停止 减速慢行 靠边停车 +2类
手势集由政府法规(中国公安部2007年标准)完全决定,研究者无设计自由度。这是最罕见的外部约束设计:「有多少类」由法律决定,而非算法或用户研究。