在迈向通用人工智能(AGI)的道路上,不断增加的计算性能和能源需求,已成为业内构建更强大大模型的主要限制和亟需解决的难题。
而光芯片,作为一种创新型技术,以其独特的光速处理能力和低能耗特性,被寄予厚望。
最近,来自来自清华大学和北京信息科学与技术国家研究中心的研究团队,在光芯片领城实现了新的突破——
他们摒弃传统电子深度计算范式,另辟蹊径,首创分布式广度智能光计算架构,设计了一种能以极高能效解决先进 AI 任务的大规模光芯片——Taichi,有效地将光子架构的网络规模提升到百万神经元级别,与其他光子集成电路相比,能效提高了两倍,适用于现实世界中的高级 AGI 应用。
相关研究论文以“Large-scale photonic chiplet Taichi empowers 160-TOPS/W artificial general intelligence”为题,已发表在权威科学期刊 Science 上。
清华大学电子工程系博士生徐智昊、博士后周天贶(清华大学水木学者)为论文第一作者,清华大学电子工程系副教授方璐、自动化系戴琼海院士为论文的通讯作者。
徐智昊表示,Taichi 表明了片上光子计算在处理具有大型网络模型的各种复杂任务方面的巨大潜力,实现了光子计算在现实生活中的应用。
“我们预计,Taichi 将加速开发更强大的光学解决方案,作为基础模型和 AGI 新时代的关键支持”。
Taichi 是如何炼成的?
对于来自现实世界的复杂多模态信息,我们迫切需要大容量、高吞吐量的计算架构。在后摩尔时代,满足持续增长的高性能需求已成为一项挑战。
使用图形处理器(GPU)等电子设备进行高级 AI 模型(如语言处理和大规模智能成像中的基础模型)的计算与饱和能效有关,这对于支持现代 AGI 是不可持续的。
追求计算能力与能效之间的平衡是高性能计算研究的一个长期目标。光子计算吸引了越来越多的关注,提供了前所未有的光速低能耗计算。
然而,当前的集成光子计算,特别是光学神经网络(ONN),通常包含数百到数千个参数,其中数十个是可调参数,仅支持基本任务,如简单的模式识别和元音识别。
尽管光子集成电路具有空间紧凑和能效高的优点,但仍受到不可避免的时变误差的限制,网络规模和计算能力有限,难以支持现实世界中的 AGI 任务。
而且,要实现大规模、高能效的光子计算,简单地扩大现有的光子神经网络芯片是不现实的,因为随着神经网络层数的增加,不可避免的模拟噪声会呈指数级扩大。放大现有架构的规模并不能成比例地提高性能。
据论文描述,Taichi 是一种采用分布式计算架构的大规模光芯片,采用衍射-干涉混合,通过衍射编码器和解码器压缩高维输入数据,并通过可调矩阵乘法器实现特征提取。
Taichi 可以实现每瓦 160 万亿次操作的能效,并支持超过 1000 个类别的图像分类,并在 1623 个类别的 Omniglot 数据集上达到了 91.89% 的准确率,超现有智能芯片 2—3 个数量级,可以为百亿像素大场景光速智能分析、百亿参数大模型训练推理、毫瓦级低功耗自主智能无人系统提供算力支撑。
图|Taichi 光芯片(来源:该论文)
与为深度计算堆叠一系列层的传统方法不同,Taichi 将计算资源分布到多个独立的集群中,为子任务分别组织集群,并最终合成这些子任务,从而完成复杂的高级任务。
光学衍射和干涉的灵活性启发研究团队设计了一种光学计算架构,来探索其在大规模网络模型和复杂任务中的独特方式。
具体来说,光学衍射层的全连接特性比传统深度神经网络中的卷积层具有更大的可变形性,这意味着光学网络有可能用比电子系统更少的层数实现相同的变换。
Taichi 的分布式架构深度较浅、宽度较宽,旨在以可持续和高效的方式扩展计算能力。在CIFAR-10 数据集中,具有四个分布式层的 Taichi 实现了与 16 层电子 VGG-16 网络相当的准确度。
图|Taichi 构建示意图。(来源:该论文)
另外,Taichi 利用衍射干涉混合芯片实现了高达两个数量级的能效提升(能效高达 160 TOPS/W)和面积效率(878.90 TMACS/mm2)。
此外,通过 Taichi 的分布式架构,研究团队实现了片上神经元密度(总神经元高达 4256个,可调神经元高达 160 个)和大规模网络(实验中高达 1396 万个)。
不足与展望
尽管研究团队在光电芯片领域实现了重大突破。但研究团队表示,光芯片与 AI 的结合依然面临着一些难题和挑战。
首先,光芯片的制造和集成仍然是一个技术难题。光芯片的制造需要高度精密的工艺和设备,目前仍然存在一定的技术瓶颈;光芯片与现有电子芯片的集成也是一个挑战,需要解决信号转换和兼容性问题。
其次,光芯片的计算模型和算法需要进一步研究和优化。虽然光芯片的计算速度和效率高,但是如何有效利用这些计算资源,设计出适合光芯片特点的算法和模型,仍然是一个亟待解决的问题。
此外,光芯片的应用领域也需要进一步拓展。目前光芯片主要应用于一些特定领域,如图像处理、大数据分析等。如何将光芯片的优势应用到更广泛的 AI 应用中,是一个需要探索的问题。
研究团队认为,要想解决以上挑战,需要在技术创新、算法优化和应用拓展等多方面继续努力。
例如,随着直接激光写入(DLW)和相变材料(PCMs)的发展,所有权重都可能是可重构的,这将带来灵活性的提升。
现成的片上激光源、调制器和检测器可以通过晶圆键合共同封装到单一平台并共同集成,这预示着更高水平的集成。至于分布式计算架构,它不仅仅是为 Taichi 单独设计的算法。计算和任务分布也可以帮助现有的光子集成电路扩展其计算能力,以应对更高级的任务。
或许在不久的将来,光芯片与 AI 的结合将开启一个全新的计算时代。随着技术的不断进步,我们期待光芯片能够实现更高性能、更低的能耗,以及更广泛的AI应用。
参考链接:
https://www.science.org/doi/10.1126/science.adl1203