人工智能与深度学习是当前的热门领域,但你听说过“表示学习”吗?据说参与其中还能提高“脱单”几率?这都是怎么回事>>>
撰文/记者 赵天宇 编辑/刘昭
新媒体编辑/李云凤
4月25-29日,2022年第10届国际表示学习大会(ICLR)以线上的方式召开,这也是从2020年开始,ICLR连续三年在线上举办。但这丝毫不影响这个只有10年历史的“年轻”学术会议,被学术研究者们广泛认可,成为 “人工智能学术会议领域的一匹黑马”。
随着人工智能领域的快速发展,近年来,深度学习在语音识别、图像分析和自然语言处理领域得到了广泛的应用和发展。深度学习的基础是机器学习,当然对于机器学习而言,仅学会深度学习是远远不够的,通过学习获得特征向量的“表示学习”才是人工智能的进阶之路,这也是“表示学习”这个“陌生名词”近年来在人工智能领域,逐渐占据举足轻重位置的重要原因。
○ ○ ○
传统机器学习很依赖人工
表示学习一词由英文的“representation learning”而来,也会被称为表征学习,目前业界还没有统一的叫法。
众所周知,数据是机器学习的核心,它决定了机器学习的上限,有至关重要的作用。在人类和大量数据的帮助下,电脑可以表现得十分强大,但是离开了这两者,它甚至都不能分辨一只猫和一只狗。
▲表示学习示意图(图片来源/Cloudera)
事实上,这并非调侃,因为传统的机器学习非常依赖于人工经验。
举个例子来说,在计算机当中,我们要把一张脸保存起来并识别,需要程序员自己编写一串代码,用以表示人脸。这种方法虽然理论上可行,但是毕竟是人确定的,人难免会出错,一千张人脸就得写一千种代码,与其说是人工智能,更像是“人力工程”。
并且,机器学习的模型通用性往往较差,很难像人一样,能够进行快速灵活地学习与应用。比如教一个咿呀学语的小朋友“什么是苹果”,大人只需要指着苹果说“苹果”十几次甚至几次,孩子一般就能快速识别各种颜色和形状的苹果。但对于机器来说,需要看几千个甚至几万个苹果的照片才能做到,再复杂一些的语音识别,则可能需要数百万个示例。
为什么会出现这种情况?令人遗憾的是,这些问题至今还没有确切答案。编码是处理信息的第一步,那么人类是如何对图像进行编码的?他提取了哪些特征可以通过少量样本进行学习?这些我们都还不清楚,但这至少给科研人员确定了一个方向,必须对机器进行训练,让它们自己掌握确定向量的能力,才能向人脑的方向进化。
(图片来源/Analytics India Magazine)
○ ○ ○
给机器“授之以渔”
因此,表示学习的概念开始被引入。简单来说,在机器学习领域,表示学习就是一种将原始数据,转换成为更容易被机器学习应用数据的过程。
表示学习中,有两个核心问题非常关键,一个是“什么是一个好的表示”,另外一个则是“如何学习到好的表示”。
表示学习的目的,是把复杂的原始数据化繁为简,把原始数据提炼成更好的数据表达,使后续的任务事半功倍。这与我们耳熟能详的谚语“授之以鱼不如授之以渔”颇有些相似,只不过到了计算机领域中,这种“渔”变得更加复杂和抽象起来。
清华大学计算机学院教授邓志东告诉记者:“表征(表示)就是分层特征向量表达的意思,所谓表征(表示)学习,说的就是深度卷积神经网络,某种意义上,也可以看成是深度学习的另一种说法和表述。”
深度学习是当前机器学习的一个热门领域,也被认为是第三次人工智能浪潮发展的助推器:相对于浅层学习依靠人工经验抽取样本特征,获得的没有层次结构的单层特征而言,深度学习通过对原始信号进行逐层特征变换,将样本在原空间的特征表示变换到新的特征空间,自动地学习得到层次化的特征表示,从而更有利于分类或特征的可视化。
所以从本质上来看,表示学习是深度学习的进阶版:“表示学习的算法包括了监督、半监督、强化和无监督学习方法等多种,范围比完全监督的深度卷积神经网络更宽广,研究的意义也就更深远。”邓志东说。
日常生活中,表示学习也有不少具体的应用案例:例如我们日常使用的“小红书”“大众点评”“美团”“淘宝”等手机应用,首页推荐栏目的内容来源,就是利用表示学习的算法特点,记录用户浏览时的商品特征、状态与上下文信息,最终形成的内容。
同时,表示学习在认知过程当中,也发挥着非常重要的作用。比如人们研究开发自动驾驶技术的核心目的,就是让机器认知事物,利用机器代替人类,实现防止前方碰撞、防止偏离车道、保持车距等。
○ ○ ○
能“解决婚恋”的ICLR
表示学习从结构上讲是数据的一个预处理手段,就如同当下的人工智能发展水平,表示学习还有很多不尽人意之处,对它深层次的逻辑和方法,也有很多可以挖掘和探讨的内容。
因此在2013年,国际表示学习大会(ICLR)诞生了,ICLR最早从国际人工智能及统计会议中脱胎,是由深度学习三大巨头之二的约书亚·本吉奥和杨立昆牵头创办的。
▲被誉为“卷积网络之父”的杨立昆(Yann LeCun)(图片来源/纽约大学官网)
本吉奥是蒙特利尔大学教授,他领导的蒙特利尔大学人工智能实验室(MILA)是世界上最大的人工智能研究中心之一,与谷歌有着密切的合作。杨立昆不仅是Facebook首席人工智能科学家和纽约大学教授,还是图灵奖获得者,被誉为“卷积神经网络之父”。
在ICLR之前,人工智能、深度学习领域的学术会议,还缺乏一个场所,能让学者们交流分享在表示学习中所遇到与关心的话题,而ICLR 的出现恰好弥补了这样的空白,所以ICLR得到了快速的发展。
此外ICLR推行的Open Review (公开评审)论文评审制度,也让参与者纷纷拍手叫好:根据规定,所有提交的论文都会公开姓名等信息,任何学者都可或匿名或实名地评价论文。而在公开评审结束后,论文作者也能够对论文进行调整和修改。
2020年,人们在浏览ICLR论文时“震惊”地发现,一名叫Yu Rong的中国年轻人论文在致谢部分一本正经地写道:“本研究受国家科技部重大专项资助。另外,Yu Rong特别要感谢Yunman Huang多年来的关爱和支持,你愿意嫁给我么?”
▲“震惊”网友的ICLR论文致谢(图片来源/微博@王威廉)
论文中求婚得到了积极的反馈,被求婚的这位女士在社交媒体平台上进行了回复:“我就是被求婚的这位!作者已经成功了!”随即网友们也纷纷送上了祝福。
至此ICLR开始迅速“出圈”。甚至有人调侃,在ICLR上发布论文不仅能够普及学术成果,获得“科学食粮”,还能够增加求婚成功的几率,高效解决当下年轻人婚恋问题,播下“爱情的种子”,可谓一举多得。
不到10年的时间,ICLR已经成长为人工智能、深度学习领域最具看点的学术会议,未来可期。这是表示学习本身快速发展的一个缩影,也从另一方面说明,表示学习可能正在成为推动人工智能新一轮快速发展的又一“利器”。■
了解更多学术前沿动态 请扫描二维码
出品:科普中央厨房
监制:北京科技报 | 北科传媒
欢迎分享到朋友圈
未经授权谢绝转载