肌电数据集的评估体系与视觉数据集存在本质差异,核心原则是稳定性与泛化性决定实用价值。由于 sEMG 信号受肌疲劳、电极漂移、受试者个体差异影响显著,单次实验的分类准确率远不足以衡量系统的实用性。
八个评估层级
层级一:手势分类基准性能
以窗口内的平均分类准确率(Mean Accuracy)为主指标,配合混淆矩阵分析类别间误识模式,Kappa 系数用于排除随机一致性的影响。适用于 Ninapro DB1–DB7 及 CapgMyo DB-a 等主流分类任务数据集。
层级二:跨日 / 跨会话稳定性
核心指标包括跨日准确率衰减曲线(Day-1 vs Day-N Acc)和域适应后的精度提升量(ΔAcc after adaptation)。Ninapro DB6 是该层级的专项基准,覆盖 5 天 × 2 次的重复采集设计。
层级三:跨受试者泛化性
采用留一受试者验证(LOSO)量化模型在未见受试者上的泛化能力,迁移学习增益(TL vs baseline)反映域自适应方法的实际贡献。跨受试者泛化是肌电识别最难克服的挑战之一。
层级四:连续关节角度回归
针对 DB8、DB9 等连续解码数据集,评估指标从分类准确率转为回归误差:均方根误差(RMSE)和平均绝对误差(MAE)衡量关节角度预测精度,R² 决定系数反映整体拟合优度。
层级五:实时性与响应延迟
假肢控制的行业标准要求端到端延迟低于 300 ms。主要指标包括分析窗口长度(150–300 ms 为常用范围)、识别延迟(Latency)和系统吞吐量(fps)。
层级六:HD-sEMG 空间特征
专属于高密度 sEMG 数据集(CapgMyo、CSL-HDEMG),重点考察单帧识别率、通道数消融准确率和电极偏移鲁棒性。
层级七:假肢控制专项评估
截肢者数据的评估中,准确率不再是唯一目标。拒绝率(RR)和假激活率(FAR)衡量系统安全性,任务完成率(CR)从功能维度评估实用价值。
层级八:信号质量与采集
信噪比(SNR)和最大自主收缩归一化(MVC)是采集质量的基础保障指标,肌疲劳检测(中位频率下移)用于识别长时间采集中的信号退化。
各数据库评估指标速查
| 数据库 | 主指标 | 特色评估重点 | 评估协议 |
|---|---|---|---|
| DB1 / DB2 / DB5 | 分类 Acc | 跨受试者泛化、特征比较 | 窗口分类 + LOSO |
| DB3(截肢者) | Acc + RR | 截肢幻肢运动识别难度 | LOSO + 跨健康/截肢对比 |
| DB6 | 跨日 Acc 衰减 | 5 天稳定性,标定成本 | Day × Session 两因素 |
| DB7 | EMG vs EMG+IMU | IMU 边际贡献量化 | 消融实验 |
| DB8 | RMSE / R² | 连续解码,回归而非分类 | 时序回归评估 |
| DB10 MeganePro | 多模态融合 Acc | 眼手协调 + 神经认知 | 跨模态消融 |
| CapgMyo DB-a | 瞬时帧 Acc | 单帧 vs 多数投票曲线 | Voting window sweep |
| CSL-HDEMG | Acc(27 类) | 通道数消融,跨 session | LOOCV per session |
小结
视觉与肌电评估体系的根本差异在于:视觉评估的核心是标注粒度决定指标,而肌电评估的核心是稳定性与泛化性决定实用价值。两类数据集共同面临三项 EMG 特有挑战:
- 时间非平稳性——肌疲劳、电极漂移、跨日变化
- 受试者间高变异性——肌肉解剖结构与使用习惯差异
- 分类与回归范式的割裂——离散手势标签 vs 连续关节角度解码
这三项挑战构成了肌电手势数据集评估体系区别于视觉领域的本质所在,也是本领域下一阶段方法论突破的主要方向。