高带宽存储器(High Bandwidth Memory,HBM)是超微半导体和SK Hynix发起的一种基于3D堆栈工艺的高性能DRAM,适用于高存储器带宽需求的应用场合,像是图形处理器、网络交换及转发设备(如路由器、交换器)等。首个使用HBM的设备是AMD Radeon Fury系列显示核心。2013年10月HBM成为了JEDEC通过的工业标准,第二代HBM —— HBM2,也于2016年1月成为工业标准,NVIDIA在该年发表的新款旗舰型Tesla运算加速卡 —— Tesla P100、AMD的Radeon RX Vega系列、Intel的Knight Landing也采用了HBM2。
简介存储器是存储指令和数据的计算机部件。有多种类型。中央处理器从存储器中取出指令,按指令的地址从存储器中读出数据,执行指令的操作。存储容量和存储器读写数据周期是存储器的两个基本技术的指标1。
高带宽存储器是一种CPU/GPU 内存芯片(即 “RAM”),其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。HBM 堆栈没有以物理方式与 CPU 或 GPU 集成,而是通过中介层紧凑而快速地连接,HBM 具备的特性几乎和芯片集成的 RAM一样,因此,具有更高速,更高带宽。
发展第一,早期,AI处理器架构的探讨源于学术界的半导体和体系架构领域,此时模型层数较少,计算规模较小,算力较低。
第二,模型逐渐加深,对算力需求相应增加,导致了带宽瓶颈,即IO问题,此时可通过增大片内缓存、优化调度模型来增加数据复用率等方式解决
第三,云端AI处理需求多用户、高吞吐、低延迟、高密度部署。计算单元剧增使IO瓶颈愈加严重,要解决需要付出较高代价(如增加DDR接口通道数量、片内缓存容量、多芯片互联)
此时,片上HBM(High Bandwidth Memory,高带宽存储器)的出现使AI/深度学习完全放到片上成为可能,集成度提升的同时,使带宽不再受制于芯片引脚的互联数量,从而在一定程度上解决了IO瓶颈。
双倍数据率同步动态随机存取存储器双倍数据率同步动态随机存取存储器(Double Data Rate Synchronous Dynamic Random Access Memory,简称DDR SDRAM)为具有双倍数据传输率的SDRAM,其数据传输速度为系统时钟频率的两倍,由于速度增加,其传输性能优于传统的SDRAM。DDR SDRAM 在系统时钟的上升沿和下降沿都可以进行数据传输。JEDEC为DDR存储器设立速度规范,并分为以下两个部分:按内存芯片分类和按内存模块分类。DDR SDRAM模块部分与SDRAM模块相比,改为采用184针(pin),4~6 层印刷电路板,电气接口则由「LVTTL」改变为「SSTL2」。在其它组件或封装上则与SDRAM模块相同。DDR SDRAM模块一共有184个接脚,且只有一个缺槽,与SDRAM的模块并不兼容。 DDR SDRAM在命名原则上也与SDRAM不同。SDRAM的命名是按照时钟频率来命名的,例如PC100与PC133。而DDR SDRAM则是以数据传输量作为命名原则,例如PC1600以及PC2100,单位 MB/s。所以 DDR SDRAM中的DDR200 其实与 PC1600 是相同的规格,数据传输量为 1600MB/s(64bit×100MHz×2÷8=1600MBytes/s),而 DDR266与PC2100 也是一样的情形(64bit×133MHz×2÷8=2128MBytes/s)。
DDR SDRAM 在规格上按信号延迟时间(CL;CAS Latency,CL是指内存在收到讯号后,要等待多少个系统时钟周期后才进行读取的动作。一般而言是越短越好,不过这还要看内存颗粒的原始设定值,否则会造成系统的不稳定)也有所区别。按照电子工程设计发展联合协会(JEDEC)的定义(规格书编号为JESD79):DDR SDRAM一共有两种CAS延迟,分为2ns以及2.5ns(ns为十亿分之一秒)。较快的 CL= 2 加上 PC 2100 规格的 DDR SDRAM称作 DDR 266A,而较慢的 CL= 2.5 加上PC 2100规格的DDR SDRAM 则称作 DDR 266B。另外,较慢的 PC1600 DDR SDRAM 在这方面则是没有特别的编号。
本词条内容贡献者为:
李嘉骞 - 博士 - 同济大学