滴！猴脸支付，您此次一共消费2根香蕉

科普中国-科普融合创作与传播 2021-04-08

　　出品：科普中国

　　制作：之遥

　　监制：中国科学院计算机网络信息中心

　　随着人工智能的落地，曾经只在科幻电影中出现的人脸识别技术已经被广泛应用。我们早已习惯于往摄像头前一站，就能迅速地穿梭于机场、火车站，还能顺便在商铺里买杯奶茶。但即便当今的AI人脸识别精度已经超越人类的判断力，但我们也不需要特别依赖它来认人。因为我们自己就进化出了专门的脑部区域（枕骨面孔区和梭状回面孔区），用以精确快速地识别人类面孔。

　　然而，人类对动物面孔的识别，可就没这么给力了。同样是耳朵、鼻子、眼睛，铲屎官却常常认不得自己朝夕相处的猫猫狗狗。对人工智能来说，只要给机器“投喂”足够多且具有一定质量的图像数据，它就很有可能获得比人类更强的识别动物面部的能力。

　　我国科学家团队还就真做了这样一项有趣的研究：一套能够识别金丝猴个体的“猴脸识别”系统，该成果还在2020年成为iScience的封面主题。

　　铲屎官对自己家“猫主子”犯脸盲可不是什么新闻

　　（图片来源: facebook网友Stanislav Zak）

　　封面为水墨画的猴子（图片来源: iScience Vol. 23 Aug, 2020）

　　从一点点到亿点点，系统如何从海量数据中学会辨别猴脸？

　　不同于以往只能对物种进行分类的技术，我国科学家们研发的“Tri-AI”系统，可以做到迅速从照片或视频中检测识别、甚至追踪到不同的“猴脸”。

　　模型训练的过程，和人的学习过程有些类似。一个未被训练过的模型，好比一个没有吃过苹果的人，他无法判断怎么选好吃的苹果。当他吃了足够多品种、颜色的苹果后，他就能知道什么样的苹果更甜。

　　对于机器来说，我们可以向它“投喂”许许多多苹果的颜色和酸甜度标签，通过这些数据，机器能够计算已知苹果的颜色和酸甜度的关系，获得根据苹果颜色判断酸甜度的能力，就是一个模型训练的过程。

　　深度学习模型显然比苹果酸甜度的例子复杂很多，机器需要学习“亿点点”参数量，因此，对数据质量的要求也很高。

　　保质保量地进行猴脸图像数据收集是训练猴脸识别模型的前提。只有收集到数量足够多、质量足够好的猴脸图像样本，才能让机器更准确地学习到它们的面部特征。尽管野外环境复杂，动物们也不像人类一样会主动看镜头喊“茄子”，我国的科学家们还是顶着重重困难收集到了珍贵而丰富的图像样本库，并同这一研究成果一起慷慨地分享给了全世界（Animal Face Dataset https://data.mendeley.com/datasets/z3x59pv4bz/2）。

　　科学家们最终成功地给机器“投喂”了102,399个图像资料，其中包含1040只已知身份灵长类动物。当然，除了这些可以打包放进机器肚子里的图像，还有许多不计其数被淘汰的样本。可见，样本收集这一过程是多么耗时费力。

　　当我们收集好了样本，怎样才能让机器辨认出猴脸呢？

　　“Tri-AI”系统一共分为目标检测（确定图像中哪个框框内是猴子脸）和对象识别（区分这张脸到底是哪只猴子的）两大部分。

　　其中，目标检测使用了Faster-RCNN技术，对象识别则采用了深度学习中有名的注意力机制（“Attention”），这二者都是具备神经网络结构的模型。

　　神经网络的数学模型从结构上有些类似于人类大脑神经元之间连接组成的网络：输入的数据进入处理数据的“神经元”，处理数据的“神经元”之间互相连接。就像是一张打满了结的大网，每一个结就是一个处理中心。

　　通常，深度模型中包含多层这样的“神经元”，经过整个网络处理归类后的数据，从输出层输出后，被分成了相应的类别。系统在处理图像时，由像素构成的图片会被机器当作数值矩阵输入，每个像素点对应矩阵中的不同位置，像素上颜色的浓度对应该位置上的数值。

　　猴脸识别第一步：目标检测。在目标检测的问题中，输出的答案是“定位框”，也就是找到猴脸的位置，用方框框出来。

　　图像经过目标检测算法Faster-RCNN后，会被方框标记为“猴脸所在区域”。从分类的角度来看，框内的位置会被标记为1，框外被标记为0；从宏观的角度来看，就是机器识别出了猴脸的位置。

　　Tri-AI 对金丝猴个体的识别流程

　　整个图像里的候选框框们经过系统的计算，最终被分出“有猴脸”和“无猴脸”的区域。但是，当猴子们低头的时候，猴脸识别并没有办法进行标记。就和我们一戴上口罩、帽子，机器就无法识别我们帅气的脸一样，低头玩手开小差的猴子，也没有办法被机器所识别。

　　猴子面对镜头可以被识别，低头时候就不行喽

　　猴脸识别第二步：对象识别。在对象识别的问题中，输出的答案是“猴子ID”，也就是辨认具体是哪只猴子。图中经过三个包含注意力机制的网络，框内的猴脸会被标记成“3号猴子”、“7号猴子”，从未在训练集出现的则被标记为“新猴子”。

　　猴子的身份识别过程——嘿，你是谁？——编号89757

　　经过科研人员艰辛的数据收集过程和精心的模型调优过程，最终得到的猴脸识别系统“Tri-AI”，不仅可以在1秒内识别31张图片，还可以达到94.11%的识别准确率。

　　Tri-attention，顾名思义，这当中应用了三个层次的 “注意力机制”，分别针对整体的猴脸、猴脸的一部分（左右上下脸）以及更细致的区域。

　　“注意力机制”重点关注的区域

　　和大多数人类具有的光洁面庞不同，猴脸上还有不同的纹理和毛发，这些细致的部分可以被模型关注到。神经网络中的注意力机制借鉴了人脑观察和认识过程中的选择性注意力机制：当人类观察一张照片时，会下意识地更关注那些最具特征的部分（比如鸟类的尖嘴和羽毛、猫咪的耳朵和肉垫）；阅读时，也会下意识关注与“中心主旨”最相关的词句。

　　与此类似，应用在猴脸识别神经网络中的注意力机制可以让机器重点关注到那些帮助区分不同猴子的像素点上：比如最细致层面的attention部分，甚至能记录到这只猴子的鼻孔纹理、脸旁边毛发的长度，帮助机器“认出”这只猴子是第几号猴子。对比原本只能使用动物斑纹、颜色和伤疤区分这些猴子的人类而言，能从宏观层面到细枝末节把猴脸打量个遍的猴脸识别系统显然更胜一筹。

　　畜牧、科普，动物识别大有所用

　　完成这一研究成果的科学家表示，除了金丝猴和灵长类动物之外，更有其他四种食肉动物的图像数据被加入到模型中，而且经过不断的训练和优化，这一技术也有望达成对其他物种的通用识别。

　　针对动物的面部识别技术不仅仅可以应用于猴子，还具备广阔的落地方向。

　　其中一种，是应用于畜牧业中。此前，养殖场对动物的管理，都是通过编号进行的，不仅需要在动物身上做标记，也需要额外的人力对饲养动物的成长周期、饮食健康等进行管理。目前，已有养牛场、养猪场甚至养鱼场纷纷落地了基于动物面部识别的人工智能管理系统，在节约人力成本的同时还能提升畜牧业管理的精细度。

　　集成了牛脸识别功能的智能养牛系统（来源：华盛顿邮报）

　　还有一种，是应用在野生动物保护和科普教育上。成都大熊猫繁育研究基地专门训练了针对熊猫个体的“熊猫脸识别”系统，不仅可以应对追溯熊猫个体之间亲缘关系的濒危物种保护和科研需求，也可以被动物园使用，更好地进行科普教育。

　　大熊猫认脸app可被应用于科普教育（图片来源：新华网四川日报）

　　此外，动物面部识别在宠物管理、动物进出口等诸多领域也大有可为。随着人工智能相关基础设施的铺开，这一技术的更多落地方向未来可期。

　　注：文中未特别标明图片均引自原论文Automatic identification of individual primates with deep learning techniques及其补充材料。

　　参考资料：

　　[1] Guo S, Xu P, Miao Q, et al. Automatic identification of individual primates with deep learning techniques[J]. Iscience, 2020, 23(8): 101412.

　　[2] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. arXiv preprint arXiv:1506.01497, 2015.

　　[3] Swarup P, Chen P, Hou R, et al. Giant Panda Behaviour Recognition Using Images[J]. Global Ecology and Conservation, 2021: e01510.

责任编辑：刘鑫嵘

上一篇：有颜色、有花香，甚至还有花蜜，为什么还不配叫花？

下一篇：青蛙择偶，哪种类型更受青睐？

科普中国APP 科普中国微信 科普中国微博