AI通过键盘窃取密码，人类还有秘密可言吗？-

谁能想到，笔记本电脑敲个键盘也能泄露自己的密码，而且准确率高达95%！

近日，来自英国杜伦大学等3所高校学者发表的一篇论文指出，最先进的人工智能模型，仅凭笔记本电脑的按键声音，就可以还原用户输入的密码和敏感信息。若使用在线会议工具（Zoom）记录的声音进行分析的话，该模型准确率达到了93%；而如果换成智能手机录音，准确率则高达95%。简直防不胜防！

被低估的键盘声攻击

在日常生活和工作中，当人们在设备上键入密码时，有些谨慎的朋友可能会注意隐藏屏幕，比如用手遮挡等，但很少会有人去掩盖键盘的声音。未来，这一现状可能会有一些改变——事情还得从英国杜伦大学等发表的这篇题为“基于深度学习的键盘声学侧信道攻击实用技术”的论文说起。

随着深度学习技术的最新发展，以及微型手机等智能设备的普及，来自英国几所大学的研究人员发现，声学侧信道攻击对键盘的威胁比以往任何时候都要大。

一方面，尽管已有多篇论文研究了这一问题，并建立了数学模型，能从键盘声音数据中推断正确按键，但那些键盘大都来自台式机，比现代键盘，尤其是笔记本电脑键盘声音明显太多。而且相同型号的笔记本电脑通常都有一样的键盘，键盘声音也是相似的，也就是说，如果一款流行的笔记本电脑被证明易受声学侧信道攻击影响，那么大部分消费者可能都处于隐私泄露的威胁中。

并且，现在获取声音的麦克风设备也较以往有了显著提高。过去基本依靠外置话筒，而现在手机、智能手表包括Zoom等在线会议软件都可以用来收集键盘声音。这也意味着，即使不攻击笔记本电脑，某些防御系统比较低级的智能穿戴或智能家居设备遭到侵入，同样会有隐私泄露的危险。

最重要的是，随着深度学习等人工智能技术的飞速发展，现在用来处理和分析数据的计算模型已有了极大提高。

过去，人们在研究声学侧信道攻击时广泛使用的是机器学习方法，常见的一种方法是利用隐马尔可夫模型（HMM），即一种在文本语料库中训练出来的模型，主要用于预测序列中最有可能出现的单词或字符。

比如，当分类器中输出“Hwllo”时，HMM可用来推断单词中的“w”实际上是被错误分类的“e”。该方法尽管在很多文本处理类的场景中比较有效，但一个最大的缺点就是输出了很强的独立性假设，不能考虑上下文的特征，使得对真实情况的建模能力变弱了，尤其在面临无序的密码场景中比较受限，这也可能是HMM近来不受欢迎的原因之一。

在这篇论文中，研究人员首次提出了一种新技术，将具有自我注意层的深度学习模型用于键盘声学侧信道攻击，并首次在键盘攻击中使用了自注意力变换层（基于transformer网络），同时在真实世界的攻击场景中进行了多次针对性实验和评估，结果显示，当前笔记本电脑的键盘泄密风险比以往任何时候都要大。

让我们还原一下“案发现场”

在本次实验中，研究人员首先选取了一台配备16GB内存和苹果M1 Pro处理器的MacBook Pro16英寸（2021年）笔记本电脑作为攻击对象。该电脑的键盘开关设计与过去两年的机型及未来可能推出的机型完全相同，且同期可用的型号很少，键盘也基本相同。

而在收集声音数据方面，研究人员也选择了当前比较常见的两种模式进行收集：一是通过与笔记本电脑同处一地的手机进行录音；第二就是通过在线会议工具（Zoom）进行远程攻击录音。

准备工作就绪后，接下来让我们简单还原一下“案发现场”。

第一步，收集数据：在两组不同模式（手机和Zoom）的实验中，研究人员通过按压笔记本电脑的36个按键（0-9、a-z）来进行；在用不同角度和力度对每个按键分别按压25次后，一个记录声音的数据文件就产生了。

第二步，击键隔离：所有按键数据都被记录后，研究人员就用当前信号分析的一种最基本方法——快速傅里叶变换（FFT），对按键声音进行了提取，并对不同频率的系数求和以获取能量；之后再定义一个能量阈值，当信号超过阈值时则标记为按键。

值得注意的是，由于Zoom在录音过程中存在噪声抑制，很难设定能量阈值，研究人员采取了一种不断调整阈值的循环方法来解决，直到找到正确的按键次数。

第三步，特征提取：这一步，研究人员采用了梅尔频谱图方法将声音特征提取出来，让每个按键的差异可识别。

第四步，数据增强：为了促进模型的泛化，即提高机器学习模型对新的、未见过的数据的适应能力，避免过度拟合训练数据，研究人员同时使用了屏蔽法进行数据增强，即通过随机抽取时间轴和频率轴的部分数据，并将这些范围内的所有值设置为频谱图的平均值，从而“屏蔽”部分图像。

第五步，建立模型：这也是本次实验中最为关键的一步。研究人员选择了图像识别领域最先进的CoAtNet模型，这是一种完美结合卷积神经网络（CNN）和Transformer（基于自注意力机制的深度学习模型）强大优势的模型进行训练。CoAtNet模型训练时间短，可以快速处理数据中的模式，同时降低采样大小（卷积），之后通过计算注意分数（自我注意）来确定这些模式之间的相关性，从而能够在相对较小的模型中也获得了很好的分类结果。

在此过程中，研究人员在CoAtNet的基础上添加了平均池化层，即计算图像区域的平均值作为该区域池化后的值，用以缓解卷积层对位置的敏感性、减少参数量；然后再是一个全连接的线性层（神经网络的基本组件之一），主要作用就是将输入的数据通过系列复杂计算得到输出结果。这样一来，CoAtNet的输出结果就可以被缩减为与每个键相关的百分比。

最终，研究人员的实验结果显示：通过手机录音的按键分类准确率达到了95%，而在Zoom录制的数据集中，分类准确率则达到了93%。简单来说，一个8位数的密码可能其中7个都可以被正确识别，而剩下的那一个被错误识别的也被证明往往集中在正确按键周围的位置！

人类还有秘密可言吗？

在最新的AI模型面前，人类看起来好像已经没有秘密可言。除了通过键盘声音来获取密码，还有哪些我们不知道的攻击方式？

这里首先得科普一下本篇论文提到的侧信道攻击的概念。所谓的侧信道攻击，也叫边信道攻击，其核心就是通过加密软件或硬件在运行时产生的各种泄露信息来间接获取密文信息。简单来讲，任何不通过正面对抗的、“旁门左道”的方法都属于边信道攻击的范畴。正所谓，大门不走走偏门、偏门走不了翻窗户，五花八门的方式只有想不到，没有黑客们做不到！

图片来源：Piqsels图库

按照侧信息的种类，除了声音之外，常见的攻击方式还有计时攻击、功耗攻击以及电磁攻击等。

比如计时攻击，计算机中的每一个程序操作都需要时间来执行，通过精确测量每个操作的时间，攻击者不仅可以推断运算的程序，还可以加快密钥的破解。举个简单例子，假设有一串6位数字组成的密码654321，当黑客通过计时攻击的方式来破解密码时，他们会通过不断地枚举“第一位”数字来加快进程。当第一位数字输入错误时验证程序很快就返回了，而当输入正确数字“6”时会发现用时比其他密码时间长，因为验证程序进入了第二位。后面以此类推，通过这一方法只需少数几次实验就可以很快实现密码破解了。

图片来源：Piqsels图库

还有功耗攻击，当人类使用计算机时，输入的字符或信息都会被转化为0或者1的编码组合，然后通过无数晶体管的开或者关来表示并运算不同的程序。不同的指令触发的晶体管开关数量不一样，所产生的功耗也不一样。通过精确的功耗变化图分析，黑客们也可以找到其中隐藏的关键信息。

图片来源：Piqsels图库

最后比较常见的还有电磁攻击，根据法拉第定律，电流的运动会产生磁场，不同程序在操作过程中产生的电磁辐射也不同。通过获取设备在运行过程中辐射出来的电磁信号，并使用相应的分析方法及泄露模型，很多关键信息也就无处可藏了。

此外，基于光学、温度、震动等信号的攻击方式也在与日俱增。2018年，美国加州大学尔湾分校的研究人员就发现了一种热成像攻击方法，即通过热感摄像机测量用户在键盘上留下的余热，就可以还原键入的文本信息；2020年，以色列的研究人员发现，通过计算机泄露的风扇转速也可以窃取到关键数据……