人工智能的进阶之路：授人以爱，授机器以渔-

人工智能与深度学习是当前的热门领域，但你听说过“表示学习”吗？据说参与其中还能提高“脱单”几率？这都是怎么回事>>>

撰文/记者赵天宇编辑/刘昭

新媒体编辑/李云凤

4月25-29日，2022年第10届国际表示学习大会（ICLR）以线上的方式召开，这也是从2020年开始，ICLR连续三年在线上举办。但这丝毫不影响这个只有10年历史的“年轻”学术会议，被学术研究者们广泛认可，成为 “人工智能学术会议领域的一匹黑马”。

随着人工智能领域的快速发展，近年来，深度学习在语音识别、图像分析和自然语言处理领域得到了广泛的应用和发展。深度学习的基础是机器学习，当然对于机器学习而言，仅学会深度学习是远远不够的，通过学习获得特征向量的“表示学习”才是人工智能的进阶之路，这也是“表示学习”这个“陌生名词”近年来在人工智能领域，逐渐占据举足轻重位置的重要原因。

○ ○ ○

传统机器学习很依赖人工

表示学习一词由英文的“representation learning”而来，也会被称为表征学习，目前业界还没有统一的叫法。

众所周知，数据是机器学习的核心，它决定了机器学习的上限，有至关重要的作用。在人类和大量数据的帮助下，电脑可以表现得十分强大，但是离开了这两者，它甚至都不能分辨一只猫和一只狗。

▲表示学习示意图（图片来源/Cloudera）

事实上，这并非调侃，因为传统的机器学习非常依赖于人工经验。

举个例子来说，在计算机当中，我们要把一张脸保存起来并识别，需要程序员自己编写一串代码，用以表示人脸。这种方法虽然理论上可行，但是毕竟是人确定的，人难免会出错，一千张人脸就得写一千种代码，与其说是人工智能，更像是“人力工程”。

并且，机器学习的模型通用性往往较差，很难像人一样，能够进行快速灵活地学习与应用。比如教一个咿呀学语的小朋友“什么是苹果”，大人只需要指着苹果说“苹果”十几次甚至几次，孩子一般就能快速识别各种颜色和形状的苹果。但对于机器来说，需要看几千个甚至几万个苹果的照片才能做到，再复杂一些的语音识别，则可能需要数百万个示例。

为什么会出现这种情况？令人遗憾的是，这些问题至今还没有确切答案。编码是处理信息的第一步，那么人类是如何对图像进行编码的？他提取了哪些特征可以通过少量样本进行学习？这些我们都还不清楚，但这至少给科研人员确定了一个方向，必须对机器进行训练，让它们自己掌握确定向量的能力，才能向人脑的方向进化。

（图片来源/Analytics India Magazine）

○ ○ ○

给机器“授之以渔”

因此，表示学习的概念开始被引入。简单来说，在机器学习领域，表示学习就是一种将原始数据，转换成为更容易被机器学习应用数据的过程。

表示学习中，有两个核心问题非常关键，一个是“什么是一个好的表示”，另外一个则是“如何学习到好的表示”。

表示学习的目的，是把复杂的原始数据化繁为简，把原始数据提炼成更好的数据表达，使后续的任务事半功倍。这与我们耳熟能详的谚语“授之以鱼不如授之以渔”颇有些相似，只不过到了计算机领域中，这种“渔”变得更加复杂和抽象起来。

清华大学计算机学院教授邓志东告诉记者：“表征（表示）就是分层特征向量表达的意思，所谓表征（表示）学习，说的就是深度卷积神经网络，某种意义上，也可以看成是深度学习的另一种说法和表述。”

深度学习是当前机器学习的一个热门领域，也被认为是第三次人工智能浪潮发展的助推器：相对于浅层学习依靠人工经验抽取样本特征，获得的没有层次结构的单层特征而言，深度学习通过对原始信号进行逐层特征变换，将样本在原空间的特征表示变换到新的特征空间，自动地学习得到层次化的特征表示，从而更有利于分类或特征的可视化。

所以从本质上来看，表示学习是深度学习的进阶版：“表示学习的算法包括了监督、半监督、强化和无监督学习方法等多种，范围比完全监督的深度卷积神经网络更宽广，研究的意义也就更深远。”邓志东说。

日常生活中，表示学习也有不少具体的应用案例：例如我们日常使用的“小红书”“大众点评”“美团”“淘宝”等手机应用，首页推荐栏目的内容来源，就是利用表示学习的算法特点，记录用户浏览时的商品特征、状态与上下文信息，最终形成的内容。

同时，表示学习在认知过程当中，也发挥着非常重要的作用。比如人们研究开发自动驾驶技术的核心目的，就是让机器认知事物，利用机器代替人类，实现防止前方碰撞、防止偏离车道、保持车距等。

○ ○ ○

能“解决婚恋”的ICLR

表示学习从结构上讲是数据的一个预处理手段，就如同当下的人工智能发展水平，表示学习还有很多不尽人意之处，对它深层次的逻辑和方法，也有很多可以挖掘和探讨的内容。

因此在2013年，国际表示学习大会（ICLR）诞生了，ICLR最早从国际人工智能及统计会议中脱胎，是由深度学习三大巨头之二的约书亚·本吉奥和杨立昆牵头创办的。

▲被誉为“卷积网络之父”的杨立昆（Yann LeCun）（图片来源/纽约大学官网）

本吉奥是蒙特利尔大学教授，他领导的蒙特利尔大学人工智能实验室（MILA）是世界上最大的人工智能研究中心之一，与谷歌有着密切的合作。杨立昆不仅是Facebook首席人工智能科学家和纽约大学教授，还是图灵奖获得者，被誉为“卷积神经网络之父”。

在ICLR之前，人工智能、深度学习领域的学术会议，还缺乏一个场所，能让学者们交流分享在表示学习中所遇到与关心的话题，而ICLR 的出现恰好弥补了这样的空白，所以ICLR得到了快速的发展。

此外ICLR推行的Open Review （公开评审）论文评审制度，也让参与者纷纷拍手叫好：根据规定，所有提交的论文都会公开姓名等信息，任何学者都可或匿名或实名地评价论文。而在公开评审结束后，论文作者也能够对论文进行调整和修改。

2020年，人们在浏览ICLR论文时“震惊”地发现，一名叫Yu Rong的中国年轻人论文在致谢部分一本正经地写道：“本研究受国家科技部重大专项资助。另外，Yu Rong特别要感谢Yunman Huang多年来的关爱和支持，你愿意嫁给我么？”

▲“震惊”网友的ICLR论文致谢（图片来源/微博@王威廉）

论文中求婚得到了积极的反馈，被求婚的这位女士在社交媒体平台上进行了回复：“我就是被求婚的这位！作者已经成功了！”随即网友们也纷纷送上了祝福。

至此ICLR开始迅速“出圈”。甚至有人调侃，在ICLR上发布论文不仅能够普及学术成果，获得“科学食粮”，还能够增加求婚成功的几率，高效解决当下年轻人婚恋问题，播下“爱情的种子”，可谓一举多得。

不到10年的时间，ICLR已经成长为人工智能、深度学习领域最具看点的学术会议，未来可期。这是表示学习本身快速发展的一个缩影，也从另一方面说明，表示学习可能正在成为推动人工智能新一轮快速发展的又一“利器”。■

了解更多学术前沿动态请扫描二维码

出品：科普中央厨房

监制：北京科技报 | 北科传媒

欢迎分享到朋友圈

未经授权谢绝转载