[科普中国]-手势识别- · 科普中国网

简介

手势识别是计算机科学和语言技术中的一个主题，目的是通过数学算法来识别人类手势。手势可以源自任何身体运动或状态，但通常源自面部或手。本领域中的当前焦点包括来自面部和手势识别的情感识别。用户可以使用简单的手势来控制或与设备交互，而无需接触他们。姿势，步态和人类行为的识别也是手势识别技术的主题。手势识别可以被视为计算机理解人体语言的方式，从而在机器和人之间搭建比原始文本用户界面或甚至GUI（图形用户界面）更丰富的桥梁。1

手势识别使人们能够与机器（HMI）进行通信，并且无需任何机械设备即可自然交互。使用手势识别的概念，可以将手指指向计算机屏幕，使得光标将相应地移动。这可能使常规输入设备（如鼠标，键盘甚至触摸屏）变得冗余。

研究发展最初的手势识别主要是利用机器设备，直接检测手胳膊各关节的角度和空间位置。这些设备多是通过有线技术将计算机系统与用户相互连接，使用户的手势信息完整无误地传送至识别系统中，其典型设备如数据手套等。数据手套是由多个传感器件组成，通过这些传感器可将用户手的位置手指的方向等信息传送到计算机系统中。数据手套虽可提供良好的检测效果，但将其应用在常用领域则价格昂贵。其后，光学标记方法取代了数据手套将光学标记戴在人手上，通过红外线可将人手位置和手指的变化传送到系统屏幕上，该方法也可提供良好的效果，但仍需较为复杂的设备。

外部设备的介入虽使得手势识别的准确度和稳定性得以提高，但却掩盖了手势自然的表达方式为此，基于视觉的手势识别方式应运而生视觉手势识别是指对视频采集设备拍摄到的包含手势的图像序列，通过计算机视觉技术进行处理，进而对手势加以识别。

手势识别关键技术手势无论是静态或动态，其识别顺序首先需进行图像的获取手的检测和分割手势的分析，然后进行静态或动态的手势识别。

手势分割手势分割是手势识别过程中关键的一步，手势分割的效果直接影响到下一步手势分析及最终的手势识别。目前最常用的手势分割法主要包括基于单目视觉的手势分割和基于立体视觉的手势分割。

单目视觉是利用一个图像采集设备获得手势，得到手势的平面模型。建立手势形状数据库的方法是将能够考虑的所有手势建立起来，利于手势的模版匹配，但其计算量随之增加，不利于系统的快速识别。

立体视觉是利用多个图像采集设备得到手势的不同图像，转换成立体模型。立体匹配的方法与单目视觉中的模板匹配方法类似，也要建立大量的手势库; 而三维重构则需建立手势的三维模型，计算量将增加，但分割效果较好。

手势分析手势分析是完成手势识别系统的关键技术之一。通过手势分析，可获得手势的形状特征或运动轨迹。手势的形状和运动轨迹是动态手势识别中的重要特征，与手势所表达意义有直接的关系。手势分析的主要方法有以下几类: 边缘轮廓提取法、质心手指等多特征结合法以及指关节式跟踪法等。

边缘轮廓提取法是手势分析常用的方法之一，手型因其特有的外形而与其他物体区分; 何阳青采用结合几何矩和边缘检测的手势识别算法，通过设定两个特征的权重来计算图像间的距离，实现对字母手势的识别。多特征结合法则是根据手的物理特性分析手势的姿势或轨迹;Meenakshi Panwar将手势形状和手指指尖特征相结合来实现手势的识别。指关节式跟踪法主要是构建手的二维或三维模型，再根据人手关节点的位置变化来进行跟踪，其主要应用于动态轨迹跟踪。

手势识别手势识别是将模型参数空间里的轨迹( 或点) 分类到该空间里某个子集的过程，其包括静态手势识别和动态手势识别，动态手势识别最终可转化为静态手势识别。从手势识别的技术实现来看，常见手势识别方法主要有: 模板匹配法神经网络法和隐马尔可夫模型法。

模板匹配法是将手势的动作看成是一个由静态手势图像所组成的序列，然后将待识别的手势模板序列与已知的手势模板序列进行比较，从而识别出手势。

隐马尔可夫模型法( Hidden Markov Model，HMM) :是一种统计模型，用隐马尔可夫建模的系统具有双重随机过程，其包括状态转移和观察值输出的随机过程。其中状态转移的随机过程是隐性的，其通过观察序列的随机过程所表现。2

展望手势识别作为人机交互的重要组成部分，其研究发展影响着人机交互的自然性和灵活性。目前大多数研究者均将注意力集中在手势的最终识别方面，通常会将手势背景简化，并在单一背景下利用所研究的算法将手势进行分割，然后采用常用的识别方法将手势表达的含义通过系统分析出来但在现实应用中，手势通常处于复杂的环境下，例如: 光线过亮或过暗有较多手势存在手势距采集设备距离不同等各种复杂背景因素。这些方面的难题目前尚未得到解决，且将来也难以解决因此需要研究人员就目前所预想到的难题在特定环境下加以解决，进而通过多种方法的结合来实现适于不同复杂环境下的手势识别，由此对手势识别研究及未来人性化的人机交互做出贡献。2