小米手势库是一套面向智能家居、车内、办公等多场景的结构化手势数据体系,收录 1,000 个手势,覆盖单双手、静动态、多指形态与多执行部位的完整组合。其核心设计理念是将手势从模糊的动作描述转化为可计算、可复现、可调度的结构化数据,并通过三层架构——描述层、语义层、交互层——分别回答手势是什么手势表达什么手势如何被使用三个核心问题。
三层架构总览
| 层级 | 核心问题 | 字段 | 设计目标 |
|---|---|---|---|
| 描述层(What) | 手势是什么 | A–H(编号、描述、动图、单双手、静动态、手指数量、部位、执行空间) | 将动作转化为结构化、可计算的数据表达 |
| 语义层(Why) | 手势表达什么 | I–K(隐喻、语义聚类、手势性质) | 建立动作→语义映射,赋予手势可解释性与可学习性 |
| 交互层(How) | 手势如何被使用 | L–R(地域、情境、语音、流程、设备、能级、优先级) | 确定手势在系统中的适用边界与层级结构 |
描述层(What)——手势是什么
描述层聚焦手势的客观可观测事实,是整个体系的输入基础。它通过标准化字段将原本模糊、不一致的手势动作转化为结构化、可计算、可复现的数据表达。
A. 手势编号
采用「前缀 + 三位数字」固定格式:前缀统一使用大写字母「G」(Gesture 缩写),数字部分三位固定位数、不足补前导零,从 G001 递增至 G1000,形成完整基础编码体系。
B. 手势描述
统一以一句话完成手势描述,核心包含 6 个必备要素:动作主体(左/右手)、形态基准(基础手形 + 手指特化)、空间特征(手掌朝向 + 运动轨迹)、动态特征(驱动单元 + 运动模式)、关键约束(必要满足条件)、核心效果(可感知的动作结果)。整体语言遵循交互行业规范,简洁、精准、无口语化表达。
目前采用飞书多维表格的自定义 AI 自动填充,对原有不规范手势描述进行转录。开启自动更新功能后,当原始描述修改时,标准化描述列自动触发 AI 重新计算,实现批量高效的标准化更新。
C. 动图 / 手势动画(时空数据)
通过连续帧动画完整还原手势的全程执行过程,精准呈现姿势变化、位置移动的节奏、顺序与同步关系。针对每条手势数据拍摄单人执行视频(正面视角、35mm 焦距、至少半身),并使用 QuickMagic 工具将视频转换为 FBX 格式,实现手势描述、动态演示及模型文件的一体化管理。
D–E. 手势形式:单双手 / 静动态
单双手以手部参与数量为核心判定依据,仅分为单手手势(单只手独立完成所有核心动作)和双手手势(两只手同时参与,无论协同配合还是独立分工)。判定聚焦「手部参与数量」,而非动作复杂度或是否接触对象。
静动态中,静态手势指手势完全抬起后始终保持固定姿势且无任何位置挪动、需维持一定持续时间的手势,数量较少;动态手势涵盖执行过程中存在姿势调整或位置移动的所有其余手势,占比极高。
F. 手指数量
按关键操作指的数量从少到多划分为单指、双指、三指、四指、五指操作,双手手势需分别统计单手关键指数量后求和标注(如双手各 5 根关键指,标注为 10 指操作)。
G–H. 主要手势部位 / 执行部位
主要手势部位以承载手势核心动作的手部/肢体区域为判定依据,仅划分手指、手掌、上臂、小臂四类。执行部位以手势发生时手部/肢体所在的人体相对空间区域为判定依据,采用「XX 前方 / XX 侧方 / XX 上方」固定句式,优先使用胸口前方、嘴巴前方、面前、身体两侧等通用描述。
语义层(Why)——手势表达什么
语义层负责建立动作→语义之间的映射关系,通过语义聚类、手势性质与隐喻机制,将原本纯物理的动作转化为人能够理解的语义单位,使手势具备可解释性与可学习性。
I. 隐喻
隐喻以简洁、稳定的表述传递手势的语义意图,不与具体实现方式直接绑定,同时隐含语义的目标效果及与相邻语义的区分。属于解释性字段,面向设计、研发与研究人员,不参与系统判定。
J. 语义聚类
依据手势所表达的功能含义、操作对象与使用场景,将具有相似语义指向的手势归为同一类别。手势库共定义 9 类隐喻机制:
| 隐喻类型 | 核心机制 | 典型动作 |
|---|---|---|
| 本体 | 将抽象概念映射为可感知的实体动作 | 抓握、按压、开合、松紧 |
| 方位 | 以空间方向映射数量、强度、状态变化 | 上下、前后、左右、远近 |
| 时间 | 以空间关系表达时间流向 | 前后、左右对应过去/未来 |
| 权衡 | 以物体重量/高低类比决策行为 | 手部交替摆动、高低对比 |
| 路径(旅程) | 将逻辑推进理解为沿轨迹展开的旅程 | 画圈、画线、滑动、轨迹描绘 |
| 建构 | 将抽象结构理解为可搭建的实体 | 构建、拼接、支撑、成型 |
| 指示性抽象指代 | 通过指向/数字/符号直接指代抽象功能 | 指向、点击、数字手势 |
| 容器 | 将数量/状态理解为可填充的容器 | 装入、倒出、填满、清空 |
| 平面 | 将信息结构理解为被铺开的平面 | 滑动、翻动、点击、书写 |
| 操作 | 直接模拟现实世界对实物的操控行为 | 按压、旋转、拨动、拖拽、敲击 |
K. 手势性质
手势性质描述动作与其所表达语义之间的映射关系类型,共分五类。映射越自然,学习成本越低、记忆负担越小、歧义风险越低;映射越抽象,系统自由度越高。
| 性质 | 映射关系 | 示例 | 学习成本 |
|---|---|---|---|
| 操作性 | 动作与对象影响之间存在直接关系 | 移动双手调整虚拟物体大小 | 低 |
| 模仿性 | 模仿有意义的动作或物体 | 抓握旋钮姿势后旋转调节音量 | 低 |
| 象征性 | 以视觉方式描绘符号 | 竖起大拇指、OK 手势 | 中 |
| 指向性 | 指向真实、隐含或想象的人物/物体/方向 | 指向设备完成识别配对 | 中 |
| 抽象性 | 手势与任务之间无操作/象征/模仿联系 | 握拳打开电视 | 高 |
交互层(How)——手势如何被使用
交互层是最终的系统决策层,通过对情境、地域、设备对象及执行方式等要素的综合映射,确定手势在不同场景中的适用边界与层级关系,使整体手势体系具备可调度性、一致性与可落地性。
L. 地域
涵盖多类差异化手势地域类别,包括不同国家的特色手势(体现文化差异)、模拟动物类手势、太空场景手势、交通场景手势等,丰富手势库的多样性与实用性。
M. 所属情境
以手势实际执行时的物理空间/使用场景为唯一判定依据,划定为厨房、客厅、餐厅、卧室、办公、车内等核心场景。情境不仅是发生在哪里,更是对手势输入条件的限制集合——不同场景下,约束维度涵盖空间尺度、用户姿态、环境干扰、设备密度与交互距离五个方面。
N. 语音描述(选填)
选择性填写字段,可根据手势的实际应用场景补充对应语音内容,用于配合手势执行、强化语义表达。如演讲场景下手势对应的演讲文字,或操作设备时需同步发出的语音指令。
O. 手势流程
指示指令是在动作过程中还是在动作结束时执行。离散手势在手势结束后才执行任务(如画圆圈打开电视);连续手势在手势过程中持续执行任务(如上下移动双手实时调节音量)。
P. 关联设备
以手势操作所指向、控制的具体智能硬件设备为判定依据,覆盖居家、办公、车内主流智能硬件。一个手势可对应多个核心关联设备,标注直接操控的设备,不标注间接联动的设备。
关键洞察:不同设备之间的核心差异不在于设备名称,而在于其被操控时呈现的交互属性与控制行为模式。将设备从物理类别抽象为控制对象类型,能够建立更具可迁移性的手势设计依据,使手势能够跨设备复用,提高交互体系的可扩展性。
Q. 手势能级(生理负荷)
手势能级(Physical Load Index, PLI)是衡量用户交互成本的核心量化指标。基于手势库内置的 FBX 高精度动画数据,通过自动化脚本逐帧解析手臂与手指各关节的角度变化与位移信息,计算原始动作能量值。引入人因工程学加权评估模型(手臂赋予 5.0 倍杠杆系数,手指为 1.0 倍权重),生成最终 PLI 值,将手势划分为微、低、中、高四个能级区间,刻画动作所对应的疲劳强度与使用成本。
R. 优先级
优先级(Priority Index)用于定义手势在交互体系中的层级位置与功能角色,通过对功能语义、使用情境、关联设备及动作特征的综合映射,确定手势在系统中的分配顺序与使用边界。该维度使不同手势在同一体系中形成清晰的层级结构,从核心控制到辅助调节逐级展开,保障整体交互的有序性、一致性与可执行性。
小米手势库的三层架构体现了一种从动作采集到语义理解再到系统调度的完整设计闭环。描述层解决数据标准化问题,语义层解决认知合理性问题,交互层解决系统可落地性问题。三层相互独立又彼此关联,共同支撑 1,000 个手势在多场景、多设备、多用户群体中的统一管理与复用。