视觉手势数据集的评估层级随标注粒度递进,核心原则是标注粒度决定指标:有类别标签则用分类指标,有像素标注则用分割指标,有关节坐标则用回归指标,有时序标注则用序列指标。
| 层级 | 评估维度 | 主要指标 | 代表数据集 |
|---|---|---|---|
| 一 | 手势识别性能 | Top-1/Top-5 Acc、F1 | Marcel、HaGRID、Jester、EgoGesture |
| 二 | 手部检测与定位 | mAP、IoU@0.5/0.75 | HaGRID、LaRED、EgoHOS |
| 三 | 像素级分割质量 | MIoU、Dice 系数 | EgoHands、EYTH、IPN Hand |
| 四 | 3D 姿态估计 | MPJPE(mm)、PCK/AUC | RHD、FreiHAND、HO-3D |
| 五 | 连续流检测 | Jaccard 指数、Levenshtein 距离、FDR | IPN Hand、LD-ConGR、CGD 2016 |
| 六 | 手语识别与翻译 | WER(%)、BLEU | RWTH PHOENIX、CSL、DEVISIGN |
| 七 | 通用数据集质量 | LOSO、跨数据集迁移、类内/类间方差 | 所有数据集通用 |
多任务数据集(如 EgoGesture、HaGRID)需同时报告多层级指标,单一准确率不足以反映模型的完整能力。
各任务类型主指标速查
| 任务类型 | 主指标 | 辅助指标 | 评估协议 |
|---|---|---|---|
| 静态手势分类 | Top-1 Acc、F1 | 混淆矩阵 | K 折 / LOSO 交叉验证 |
| 动态手势识别 | Acc、Jaccard | FDR、Latency | 视频级 / 帧级双评估 |
| 手部检测(bbox) | mAP@0.5 | IoU、AR | COCO 评估协议 |
| 像素分割 | MIoU | Dice、PA | 逐帧 / 逐视频均值 |
| 3D 关节估计 | MPJPE (mm) | PA-MPJPE、PCK | Codalab 在线评测 |
| 连续手语识别 | WER (%) | BLEU、Levenshtein | 全序列解码对齐 |