手部手势识别算法主要解决两类问题:一是分类问题,判断手部是否做出特定手势(如"OK"手势、圆周运动);二是回归问题,连续估计手指弯曲角度、手腕偏移角度等参数。整体算法框架分为传统模式识别和深度学习两大类,近年来还涌现出一批新兴算法方向。
传感信号来自贴附于手臂、手部、手指等不同部位的各类可穿戴接口,经预处理与特征提取后,输入分类或回归模型。评估是否引入深度学习时,需综合考量四个核心维度:可用数据集规模(深度学习需要大量标注数据);识别任务复杂度(手势集越大、自由度越高,深度学习优势越明显);鲁棒性与泛化需求(跨用户、跨场景的稳定性要求);以及边缘端部署的实时计算与功耗成本(LDA 推理延迟可低至毫秒级,深度学习模型在边缘端的部署成本往往高出一个数量级)。
值得注意的是,以 CNN 为代表的深度模型最初为图像分类或自然语言处理任务设计,若直接套用于一维、非平稳的可穿戴传感信号,其性能未必总是优于经过精心特征工程的传统方法。因此,不存在能完美适配所有手势任务的通用模型——大多数研究需要广泛的基准测试,综合考量识别精度、计算成本、内存占用等实际需求后选择最优解。
2.2.1 传统机器学习
预处理 · 特征提取
LDA · SVM · HMM · DTW
LDA · SVM · HMM · DTW
2.2.2 深度学习
1D-CNN · LSTM · 伪图像
多模态融合 · 高密度 sEMG
多模态融合 · 高密度 sEMG
2.2.3 新兴算法
盲源分离 · 运动协同
迁移学习 · 小样本学习
迁移学习 · 小样本学习
| 算法类别 | 典型方法 | 适用任务 | 主要优势 | 主要局限 |
|---|---|---|---|---|
| 传统机器学习 | LDA、SVM、随机森林、HMM | 分类、回归 | 可解释性强,计算开销小 | 依赖手工特征,泛化能力有限 |
| 深度学习(时序) | 1D-CNN、LSTM、GRU | 动态手势分类 | 端到端,自动提取时序特征 | 需要大量标注数据 |
| 深度学习(图像化) | 2D-CNN、注意力机制 | 高密度信号分类 | 充分利用空间结构信息 | 计算量大,边缘部署成本高 |
| 新兴算法 | 迁移学习、小样本学习、NMF | 跨用户/跨场景 | 减少标注需求,提升鲁棒性 | 方法复杂,调参难度大 |
边缘端部署的核心约束是功耗与延迟:LDA 推理延迟可低至毫秒级,适合假肢控制等实时场景;深度学习模型在边缘端的部署成本往往高出一个数量级,但超维计算(HDC)等轻量化架构正在缩小这一差距。选择算法时,应将目标设备的计算预算作为首要约束条件。