3.4.2 肌电手势评估指标 — 可穿戴隔空手势交互白皮书

肌电数据集的评估体系与视觉数据集存在本质差异，核心原则是稳定性与泛化性决定实用价值。由于 sEMG 信号受肌疲劳、电极漂移、受试者个体差异影响显著，单次实验的分类准确率远不足以衡量系统的实用性。

八个评估层级

以窗口内的平均分类准确率（Mean Accuracy）为主指标，配合混淆矩阵分析类别间误识模式，Kappa 系数用于排除随机一致性的影响。适用于 Ninapro DB1–DB7 及 CapgMyo DB-a 等主流分类任务数据集。

核心指标包括跨日准确率衰减曲线（Day-1 vs Day-N Acc）和域适应后的精度提升量（ΔAcc after adaptation）。Ninapro DB6 是该层级的专项基准，覆盖 5 天 × 2 次的重复采集设计。

采用留一受试者验证（LOSO）量化模型在未见受试者上的泛化能力，迁移学习增益（TL vs baseline）反映域自适应方法的实际贡献。跨受试者泛化是肌电识别最难克服的挑战之一。

针对 DB8、DB9 等连续解码数据集，评估指标从分类准确率转为回归误差：均方根误差（RMSE）和平均绝对误差（MAE）衡量关节角度预测精度，R² 决定系数反映整体拟合优度。

假肢控制的行业标准要求端到端延迟低于 300 ms。主要指标包括分析窗口长度（150–300 ms 为常用范围）、识别延迟（Latency）和系统吞吐量（fps）。

专属于高密度 sEMG 数据集（CapgMyo、CSL-HDEMG），重点考察单帧识别率、通道数消融准确率和电极偏移鲁棒性。

截肢者数据的评估中，准确率不再是唯一目标。拒绝率（RR）和假激活率（FAR）衡量系统安全性，任务完成率（CR）从功能维度评估实用价值。

信噪比（SNR）和最大自主收缩归一化（MVC）是采集质量的基础保障指标，肌疲劳检测（中位频率下移）用于识别长时间采集中的信号退化。

数据库	主指标	特色评估重点	评估协议
DB1 / DB2 / DB5	分类 Acc	跨受试者泛化、特征比较	窗口分类 + LOSO
DB3（截肢者）	Acc + RR	截肢幻肢运动识别难度	LOSO + 跨健康/截肢对比
DB6	跨日 Acc 衰减	5 天稳定性，标定成本	Day × Session 两因素
DB7	EMG vs EMG+IMU	IMU 边际贡献量化	消融实验
DB8	RMSE / R²	连续解码，回归而非分类	时序回归评估
DB10 MeganePro	多模态融合 Acc	眼手协调 + 神经认知	跨模态消融
CapgMyo DB-a	瞬时帧 Acc	单帧 vs 多数投票曲线	Voting window sweep
CSL-HDEMG	Acc（27 类）	通道数消融，跨 session	LOOCV per session

视觉与肌电评估体系的根本差异在于：视觉评估的核心是标注粒度决定指标，而肌电评估的核心是稳定性与泛化性决定实用价值。两类数据集共同面临三项 EMG 特有挑战：

这三项挑战构成了肌电手势数据集评估体系区别于视觉领域的本质所在，也是本领域下一阶段方法论突破的主要方向。