版权归原作者所有,如有侵权,请联系我们

中国科学家新突破:未来的AI模型,或许可以用“光”来训练了!

学术头条
一起见证人类探索征途上的每一个重大突破。
收藏

撰文 | 马雪薇

前言

未来的人工智能(AI)模型,或许可以用“光”来训练了。

长期以来,传统的电子计算推动着 AI 模型规模的不断扩展,但大规模意味着高算力,也意味着高能耗,因此,亟需一种高效低能耗的计算方法来解决未来 AI 模型所面临的能源问题。

近年间,具有高算力低功耗特性的智能光计算逐步登上了算力发展的舞台。通用智能光计算芯片“太极”的问世便是其中的一个缩影,它首次将光计算从原理验证推向了大规模实验应用,以 160TOPS/W 的系统级能效为大规模复杂任务的“推理”带来了曙光,但未能够释放智能光计算的“训练之能”。

训练和推理是 AI 大模型核心能力的两大基石,缺一不可。相较于模型推理而言,模型训练更需要大规模算力。

然而,现有的光神经网络训练严重依赖电计算进行离线建模并且要求物理系统精准对齐。正因如此,光学训练的规模受到了极大的限制。

由清华大学电子工程系教授方璐、自动化系戴琼海院士及其科研团队提出的全前向智能光计算训练架构太极-II,摆脱了原有光计算系统对电计算离线建模的依赖,实现了大规模神经网络的在线训练,并有潜力支撑未来 AI 大模型的高速、低功耗训练。

相关研究论文以“Fully forward mode training for optical neural networks”为题,已发表在权威科学期刊 Nature 上。清华大学电子系博士生薛智威、博士后周天贶为共同一作。

图片

据介绍,研究团队利用“光子传播对称性”,将神经网络训练中的前向与反向传播都等效为光的前向传播。在物理系统上实现计算密集的训练过程。

据清华大学官方报道,Nature 审稿人在审稿评述中指出“本文中提出的想法非常新颖,此类光学神经网络(ONN)的训练过程是前所未有的。所提出的方法不仅有效,而且容易实现。因此,它有望成为训练光学神经网络和其他光学计算系统的广泛采用的工具。”

太极-II 架构是如何工作的?

太极-II 架构是一种在物理系统上直接进行光学神经网络训练的方法。它利用空间对称性和洛伦兹互易性,消除了反向传播的需求,提高了训练效率,且可以应用于大规模学习、复杂场景智能成像、拓扑光子学等领域。原理如下:

将光学系统参数化,映射到神经网络上。

利用空间对称性和洛伦兹互易性,实现数据传播和误差传播的精准对齐。

基于测量数据/误差传播的输出光场计算梯度,并进行参数更新。

图片

图|太极-II 智能光计算训练架构。a, 传统上,光学AI 系统是通过离线建模和优化来设计的,这导致其设计效率和系统性能受限。b, 一般的光学系统,包括自由空间系统和集成光子系统,都包含了调制区域(深绿色)和传播区域(浅绿色),在这些区域中,折射率分别是可调和固定的。c, 光学系统中的这些区域可以映射到神经网络表示中的权重和神经元连接,这使得可以在输入和输出之间构建一个可微分的神经网络表征(左上)。利用空间对称的互易性,数据和误差计算共享前向物理传播和测量,并在设计区域内计算在线梯度以更新折射率(右上和左下)。通过在线梯度下降,光学系统逐渐收敛(右下)。

效果怎么样?

太极-II 架构在多个领域均展现出巨大的应用潜力。

1. 光学神经网络(ONN)

深层 ONN 构建:太极-II 架构能够实现具有数百万参数的深层 ONN,并达到与理想模型相当的准确率。这对于光学计算至关重要,因为深层网络可以处理更复杂的任务并实现更高的性能。

非线性 ONN:太极-II 架构支持非线性光学神经网络的训练,通过在数据传播中引入非线性激活函数,并利用记录的函数输入输出来计算梯度,实现高效精准的训练过程。

图片

图 | 深度 ONN 的并行梯度下降训练。

2. 复杂场景智能成像

穿散射成像:太极-II 架构能够透过散射介质实现接近衍射极限的聚焦成像,达到更高的分辨率。这对于显微成像和宏观成像等领域具有重要意义。

非视域场景成像:太极-II 架构能够实现毫秒级的并行成像,并实现对非视域的目标进行全光处理。这对于非视域场景下的动态目标成像和识别具有重要意义。

图片

图 | 利用 太极-II 架构,透过散射介质达到衍射极限分辨率。

3. 集成光子系统 (PIC)

自设计 PIC 网络:太极-II 架构能够实现集成光子系统的自设计,并达到与理论相当的准确率。这对于构建高性能的光子计算系统具有重要意义。

非厄米系统解析:太极-II 架构能够自动搜索非厄米系统的奇异点,并无需物理模型。这对于研究和解析复杂拓扑系统具有重要意义。

图片

图 | 基于太极-II 架构的集成光子系统在线训练。

用“光”拉动 AI 算力增长

太极-II 架构将光学系统视为可学习的神经网络,并通过目标导向的优化方法在物理系统中进行设计和训练,突破了传统光学设计方法的局限性,实现了光学系统的自主学习和高性能设计。

太极-II 架构可以应用于各种光学系统,包括自由空间系统和集成光子系统,并能够支撑多种智能任务,例如图像处理、模式识别、机器学习和深度学习等。

可以预见,智能光计算平台将有望以更低的资源消耗和更小的边际成本,为人工智能大模型、通用人工智能、复杂智能系统的高速高能效计算开辟新路径。

评论
爱国主毅
少傅级
相较于模型推理而言,模型训练更需要大规模算力。
2024-08-10
潘星空
进士级
为伟大的中华民族点赞!
2024-08-10
平平淡淡才真
贡士级
为伟大的中华民族点赞!
2024-08-10