AI Time 论道：人机交互的终极状态——人机共生-

在电影《少数派报告》中，汤姆·克鲁斯扮演的角色站在虚拟屏幕前，不用触摸任何实质的东西，仅靠一个特殊手套就能隔空操控数据。

虽说电影中的场景是虚构的，但“隔空操控”的人机交互场景，却可以真实发生在我们身边。

在未来，我们隔空就能操控电脑、手机屏幕；智能设备会看你的“脸色”行事；甚至盲人也能靠字体感知准确地打字。

谷歌 Motion Sense 隔空切歌

那么，这些科幻味十足的场景，离我们还有多远？当前的人机交互，发展到什么程度了？

第七期AI Time《论道人机交互VS智能》，我们邀请到了清华大学计算机科学与技术系长聘教授史元春、中科院软件所研究员田丰、中科院计算所研究员陈益强、小小牛创意科技CEO曹翔四位重量级嘉宾，论道人机交互的发展及未来。

人机交互发展史

1979年，当年轻的乔布斯拜访施乐PARC研究中心时，他看到了施乐新发明的图形用户界面（GUI），相比当时的文本命令行界面，程序图标、窗口化、下拉菜单和绚丽的图像效果把乔布斯狠狠地震撼了。

“仿佛蒙在我眼睛上的纱布被揭开了一样。”《乔布斯传》中如此描述乔布斯当时的感受：“我看到了计算机产业的未来”。

乔布斯回到苹果后，迅速将GUI移植到苹果产品上，随后上市的Macintosh取得了轰动效果。

史元春教授介绍人机交互发展史

今天我们习以为常的触摸屏或图形用户界面，在40年前尚是石破惊天的革命。

在计算机横空出世的这近半个多世纪里，有一些学者做出了巨大的、直接的贡献。

《创新者》叙述了计算机发展史上的“伟人”

Vannevar Bush

1945年,在电子计算机尚未“出世”时，范内瓦·布什就发表了题为“As We May Think”的文章，形象描述了未来个人电脑——一种被称为MEMEX的机器，阐释了直接交互、超链接、网络存储等概念。

J.C.R Licklider

1960年，约瑟夫·利克莱德提出“人机共生”的思想，并在布什的领导下通过美国国家科技计划大力支持了人机共生理念下的图形与可视化、虚拟对象操控、互联网络等研究项目，在他的主导下，个人电脑、互联网络的标志性关键技术在六七十年代逐次诞生了。

约瑟夫·利克莱德领导的交互式计算，不但研发了分式操作系统，而且直接地引导了图形技术。

在Vannevar Bush、J.C.R Licklider、 Doug Engelbart、Bob Taylor等先驱的推动下，在语言学、心理学、计算机科学的共同参与下，计算机从没有用户界面，到有了图形用户界面，开创了个人电脑以及互联网络等惠及整个社会的新产业。

未来，在新的传感和多媒体技术的共同支持下，机器将可以通过感知和数据处理技术来理解我们，来理解周围的环境，实现更自然、更智能的人机交互。

研究及应用现状

每位嘉宾就所做所见，讲述了人机交互正在或即将发生的场景，这些场景基本代表了人机交互最新、最前沿的研究方向。

Wonder Painter

现实版神笔马良

视频中展示的场景，就是曹翔老师所做工作的典型例子。一张普通的纸，一支普通的笔，画下天马行空的图画，再由手机采集起来，瞬间就可以转化成三维的动画。

曹翔老师希望通过这项技术，打破普通人表达创意的门槛。

输入技术和相关理论

自然人机交互具有输入非精确性等新型特征，同时EMG等新的输入通道为自然人机交互提供了研究机遇。如何建立针对新型特征的运动模型，并利用生理等新型通道感知用户交互意图是人机交互研究的重点之一。

田丰老师就此介绍了自己的两项工作。

一是运动目标获取非确定性模型。

在运动的画面中，如何知道用户真正想点击的是哪一个模块？其基本思路是：

1. 构建落点分布模型，揭示落点分布与目标初始位置、大小、gal度间的关系

2. 对目标获取错误率进行预测

3. 增强移动目标获取成功率

据田丰介绍，这项研究可帮助帕金森病人做辅助诊断。

二是基于EMG的交互意图隐式感知技术。

想象一下，你拿起一支笔，或者喝了一口水，不等你给机器传达命令，它就通过你的肌肉电信号，感知到了你现在正在做什么。这就是田丰目前在做的另一项研究。

该项工作的主要思路是：

1.提出一种通过肌电感知技术对日常手部动作及所接触物品属性进行感知的方法

2. 通过布置手臂上的传感器捕获手部活动时的EMG信号

3. 提取能表征EMG信号的均方根、AR系数等特征并通过机器学习方法识别物体

多模态协同感知

陈益强老师指出，普适计算时代，未来的人机交互模式应该是多模态的。我们既可以用键盘、鼠标、语音进行机器操作，也可以用手势、表情、唇语进行操作。

围绕“多模态”设想，陈益强提到了自己的两项工作。

一是基于多模态感知理论的手语识别。陈益强将面部识别、手势动作识别和手语识别相融合，来提高手语识别的精度，以期帮助残障人士和外界沟通。

二是基于多模态感知理论的人机交互方法，利用语音，视觉，可穿戴等等，使机器人获知用户当前复杂行为及情感状态。陈益强提到：“人机交互的终极目标，是达到人机之间的无缝互动，仿佛人和人在交互一样。因此，机器要准确感知到人的当前动作、行为甚至情绪。我们基于多模态手段，如语音、面部表情、可穿戴生理指标检测等，试图解决这个问题。”

自然用户意图的准确理解

在使用手机软键盘时，你有没有误触的苦恼？26个字母挤在狭窄的输入界面里，再配上胖乎乎的手指，点错的经历太多了。

这是触屏这种自然交互界面上典型的难题：胖手指难题。输入信号脱离了精准的接口设备，还有可能达到精准的输入效果吗？

史元春教授的研究工作，提出了基于贝叶斯推理的自然用户意图理解框架，建模用户行为特征，在模糊的输入信号上推测用户的真实意图。你点的不准没关系，算法可以猜得准。基于这项技术，史元春教授的团队已经研究实现了手机、平板、头盔、电视等一系列接口上的输入法，输入准确度大幅度提高，且几乎不需要视觉瞄准，进而还能支持盲人用户准确实现软键盘输入。

未来的接口也会延伸感知人的操控行为，史教授正在研制的手机前置摄像头上就能：“感知到人手在界面上的变化后，我们就能以此做出新的‘输入法’。比如手握手机的任意边框或位置，就可以输入信息、访问界面。甚至和桌子的交互，也能变成对手机的操作。”

全手型感应

“这些操作无需经过人眼确认，通过字体感知即可实现准确输入。”

盲输入技术

这些成果已见诸实际应用，如：电容屏防误触技术部署在了华为MATE系列千万量级手机上，智能输入意图推理算法应用在搜狗和华为的输入法无障碍手机交互技术应用于手机淘宝和支付宝等。

史元春教授指出，要建立一套理解人的意图表达的计算框架，我们还要继续在理论和传感技术上做更多研究。

技术思辨

几位嘉宾就人机交互相关问题，进行了思辨和讨论。

人机交互的理论和方法

Q1: 交互界面的构建有计算模型吗？

Q2: 如何定量评估界面设计的效果？

田丰认为交互界面的构建是有计算模型的，但针对自然人机交互，研究者做了“点”上的研究，还没有完全系统化。

史元春教授同意以上观点，并指出定量评估的方法虽有，但很不充分。不过借助相应的传感技术，定量评估的原理和技术都在不断拓展，这从红外反射监测血流、血压参数、情绪变化等一系列应用上就可以看出。

EQ-Radio 无线信号监测

曹翔补充道：为什么人机交互很难用计算机模型衡量？因为人机交互的任务是多样的，且越来越娱乐化。这令交互效率很难界定。

“我们越来越需要通过生理指标衡量人机交互的体验，这里面一定需要定量数据。”

那么，哪些东西可计算建模，哪些东西不能计算建模呢？曹翔认为明确的任务性的工作相对容易建模，因为目的很清晰；体验性的、娱乐性的、沟通性的工作比较难用计算的方式建模，因为其中夹杂着大量非简单人机交互的内容，例如人与人之间的互动等。

人机交互与人工智能的关系

Q1: 在中文上，两者都有关于“人”的研究，有共同的研究内容和方法吗？

Q2: 两者研究成果的价值体现有何异同？

Q3: 智能人机交互主要指什么？

Q4: 人机交互研究对 AI 有贡献吗？

陈益强提出：要做好智能人机交互，必须做到个性化。人脑智能分为三个部分，中枢神经、小脑和大脑，这三部分体现了不同程度的智能，可对应人机交互中的不同智能应用程度。

比如神经智能如中枢神经控制下的膝跳反射或条件反射，就可和键盘鼠标触屏技术等传统人机交互技术相对应，注重实时的感知与执行，实现敲一下键盘，屏幕就弹出一个字。而像语音识别、手势识别这一部分新型人机交互，就类似于小脑智能部分，侧重于基于学习或预测的执行，过程包括了感知-学习-执行。而智能人机交互的终极目标，需要在感知刺激的基础上不仅有学习，还应有知识推理，而后决策执行，这类似于大脑智能层次，到了这个部分，人机交互应该能做到带情感甚至带有价值判断的智能人机交互。

中科院计算所研究员陈益强

史元春教授认为，人机交互应该让机器更好的适应人，适应人的本性，适应人的操控能力、感知能力和认知能力。从“人” 的研究内容上来说，人机交互与人工智能有差异，但出发点是一致的，即“人机共生”。目前看，人工智能的研究更多的体现在人的识别、语言的表达等数据密集型任务上的处理方法，人机交互的研究更偏重于对人的主动交互行为和感知能力的建模、传感和建立适应的接口技术，人机关系必定向着共生的方向发展，这些研究内容和方法会相互影响和适应，交叠的研究内容会越来越多。

“做人工智能最后要接触人机交互，做人机交互最后也要接触人工智能。”

清华大学计算机科学与技术系长聘教授史元春

田丰提出了“人机交互和人工智能从交替沉浮到协同共进”的观点。

未来的计算机将是一个智能体，人与智能计算机的交互，即是人机协同；而从人工智能的角度讲，自动驾驶、自动诊断也讲求人机协同，两者殊途同归。

人机交互想解决不确定性，就需学习人工智能的方法，两者互相支撑，协同并进。

中科院软件所研究员田丰

曹翔补充道：机器在不断地取代人力，未来所有带“老”字的职业，都将被AI取代，例如老司机、老中医等。为什么呢？因为AI最擅长数据和经验，完全依靠经验驱动的职业很可能被AI取代。创造性的、沟通性的、娱乐性的工作，则是不可被AI取代的，这就体现出了人机交互的重要性。

陈益强不完全同意曹翔的观点，他指出：“我认为带‘老’字的职业都不会被取代。例如一台自然语言处理及知识推理能力极强的类似医疗诊断机器，它可以借助公开发表的文献（大数据）习得80%的经验，但剩余20%的疑难杂症（小数据）无法习得，这部分只能求助于‘老’医生。”

如何评论未来交互技术的发展？

Q1: 最近出版的《科技之巅》总结了近十年全球百项突破性技术，包括IT、能源、生医、材料等共十章。其中，人工智能与人机交互分列第一和第二章，HCI主要集中在手势、语音交互和穿戴产品，可否对现在人机交互技术和未来交互技术的发展做评论？

Q2: 您最关心的HCI挑战是什么？

史元春教授讲道：“未来计算机的形态会变化，甚至可能不存在了，但计算机技术会持续为我们服务，成为人机共生的一部分，交互接口、交互任务会有很大的变化，但会更自然，更智能。”

陈益强指出，普适计算可以使手环、穿戴设备等计算机形式化于无形，就像看不见摸不着的空气一样。例如穿戴设备可以附着在衣服、鞋子里，实现人机共生。最后在材料、计算技术的进步下，真正实现对人类自然行为的意图理解，助力解决人口老龄化、阿尔茨海默病早期预警等。

穿戴、手环电子设备

曹翔最关心的是，如何通过机器、技术放大个人的创造力，从而帮助个人在社会和工作中立足。

“我们五感的潜力，不只局限于物理世界的刺激。随着技术的进一步发展，我们可以挖掘更多的感官体验力，创造全新的体验。”

小小牛创意科技CEO曹翔

田丰老师更关注如何通过人机交互的研究推动相关产业的发展，产生主流的影响。例如电子白板对中国教育信息化的推动，人工智能对帕金森、脑卒中、阿尔茨海默、痴呆等做辅助诊断等。

值得一提的是，田丰带领团队研发的笔式电子教学系统获得了国家科技进步二等奖，并与协和医院共同取得了国家卫健委颁发的医疗健康人工智能应用落地30最佳案例的荣誉。

人机交互的人才发展路径

Q1:工业界需要什么样的交互人才？

Q2:学校如何培养人机交互人才？

Q3:如何判断自己适不适合做人机交互？

史元春教授提到：“我们培养的人才应该能够发现交互难题，并且能通过科学的方法来解决这个问题。”

曹翔赞同史元春教授的观点，并补充道：“交互设计师、用户研究员等对口培养的专业，不难找工作；难找工作的是把人机交互作为一个研究领域去学习的学生，因为现有的一个萝卜一个坑的职业体系，并不太适合跨学科的人才，但创业特别需要这样的人。”

如何判断自己适不适合做人机交互？曹翔提醒道，跟“风口”很不靠谱，兴趣才是首要的。

在会议的最后，我们发布了OAG-WhoIsWho系列竞赛，点击阅读原文，即可查看详情。

未来，人机交互会发展到如何程度，你最期待的人机交互场景是什么？