储存虚拟化,也称存储虚拟化,是指将具体的存储设备或存储系统同服务器操作系统分隔开来,为存储用户提供统一的虚拟存储池。它是具体存储设备或存储系统的抽象,展示给用户一个逻辑视图,同时将应用程序和用户所需要的数据存储操作和具体的存储控制分离。存储虚拟化的任务首先是在多个物理存储设备或存储系统上创建一个抽象层,屏蔽复杂性,简化管理,尤其是在异构环境中;其次是对存储资源进行优化。
简介储存虚拟化,即存储虚拟化是通过虚拟卷映射、流数据定位、数据快照、虚拟机等技术实现异构存储设备的统一管理以及存储位置无关性而提出的,目的在于屏蔽存储管理中的一系列复杂问题而向用户提供简单透明统一的存储访问模式。目的是为了解决存储需求不可预见的持续膨胀式增长、以适应网络存储系统变得越来越庞大和复杂、众多而异构的存储设备如何有效的统一管理和高效的利用,屏蔽不同存储设备的差异性而提供简单而统一的访问方式。在最基础的层面,存储虚拟化可以定义为在物理存储设备和/或低级逻辑存储设备之上,能够提供简化的逻辑存储资源视图的提取层。这种提取可以发生在主机或存储阵列中,也可以发生在 SAN 内部。另外,它既可以在带内执行(例如对称),使控制和数据在同一条路径上;又可以在带外执行(例如非对称),使控制和数据使用不同的路径。带内解决方案非常依赖作为主机网络和存储池中间设备的硬件(虚拟化服务器)。所有事务处理都将通过该设施,因而会产生对潜在性能的限制,并使可用性复杂化。带内设施必须拥有“恢复”功能,否则,通过一组设施执行 I/O 就会产生单故障点。另外,由于不能总集中管理这些设施,因而会产生多个管理点。反之,虽然带外解决方案可能会部署一些分布式硬件,以便处理元数据,但主要基于软件。数据直接从服务器传输至存储子系统,因此,性能和可用性都不会受到影响。利用带外或分布式体系结构,一般能够提供集中管理。
发展上世纪五十年代商用计算机出现,当时采用直接连接存储 (DAS),这种连接方法将磁盘存储直接通过电缆或总线附加到计算机中央处理器 (CPU) 以及 RAM 存储器。以后的几十年,出现了如小型计算机系统接口 (SCSI)标准协议,这种连接方法延伸了设备传统磁存储器的范围,如 CD-ROM、磁带驱动器及自动装载机和 JBOD(简单磁盘捆绑)。虽然不同类型的存储大量涌现,容错设计提高了存储可靠性,但它们的连接方式仍然局限于单一服务器或工作站,限制了介质的利用率。
存储虚拟化技术首先在缓存控制器阵列(RAID Redundant Array of Independent Disk)出现,该技术诞生于 1987 年,由美国加州大学伯克利分校提出。RAID 是将多块硬盘通过硬件或软件方式结合成虚拟的单块大容量的磁盘来使用。首先,RAID通过多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量,使用 RAID 可以达到单个磁盘的几十倍甚至上百倍的存储速度。大量磁盘以容错的方式池化到一起,利用一个公共缓存内存池,应用程序不使用实际数据块,而是使用数据块的逻辑图像。这样,可以通过消除机械磁盘寻道和旋转延迟改善性能。 同时,有助于主机使用低成本磁盘。其次,RAID 通过数据校验来提供容错性。
单个普通磁盘无法提供容错功能,RAID 容错建立在每个磁盘硬件容错功能之上,很多RAID 模式都有较为完备的相互校验、恢复措施,甚至是直接相互镜像备份,大大提高了RAID 系统的容错度,提高了系统的稳定性和冗余性。
20 世纪 80 年代初期 ,一些厂商提出服务器共享存储的思想 ,出现了网络附加存储 (NAS) ,它使服务器集中存储数据且不受地点限制,提供了前所未有的灵活性。多个用户可以同时读写存储,统一访问相同数据集,提高用户间的协作能力,简化部署提高可扩展性。上世纪九十年代中后期, 随着网络技术的发展与处理能力的大幅提高,传统的单机数据处理方式不能满足信息系统发展的要求,被以数据为中心的网络存储所取代,存储系统与网络系统结合起来,产生了网络存储系统。 存储区域网络 (SAN) 的出现进一步推动了存储虚拟化的发展。 与此同时,提出了存储资源整合的概念,SAN 通过有效共享存储资源提高容量利用率。这样,有助于企业整合存储资产,便于利用通用软件工具简化管理,并可以远距离复制关键信息,显著提高避免数据损坏和灾难事件的保护能力。21 世纪初,存储厂商开始将先进的虚拟化功能引入到自己的产品中。这些功能不仅提高了利用率,而且支持异构存储外部连接,实现不停机数据迁移和移动,提高业务连续性,可进行逻辑盘分区、多层存储以及精简预配置。 利用精简预配置,可在应用程序写入数据时,分配磁盘或文件系统的物理容量,而不是在配置时进行预分配。
常见存储结构直接连接存储
直接连接存储是指将存储设备通过 SCSI、线缆或光纤通道直接连接到服务器上,存储设备可以是阵列,也可以是磁盘。它的存储模式是以文件服务器为核心的。主机与存储设备之间通常是以块为单位数据传输。存储职能由主机和存储设备共同分担,存储作为整个服务器系统的一部分。DAS 本身是硬件的堆叠,不带任何存储管理系统。
网络附加存储
网络附加存储是一种文件共享服务,NAS 拥有自己的文件系统,通过NFS或CIFS协议对外提供文件访问服务,能实现不同操作系统的文件共享。NAS将分散的存储设备整合为数据存储中心进行集中管理。NAS中,主机只用于处理数据,NAS设备独立承担数据存储。从消除了存储设备对主机的依赖,提高了系统性能。但NAS 的缺点也十分明显,由于 NAS 与 LAN 处于同一物理网络中,NAS 需要很大的网络带宽,和很高的 CPU 处理能力 。容易造成网络拥堵 ,性能降低。NAS在网络备份和数据恢复方面性能不足 。
存储局域网(SAN)
SAN 是一种以网络为中心的存储结构,按照SNIA 定义,SAN 是一种利用 Fiber Channel等互联协议连接起来的可以在服务器和存储系统之间直接传送数据的存储网络系统。SAN 是一种体系结构,它是采用独特的技术(如FC)构建的、与原有 LAN 网络不同的专用存储网络,存储设备和 SAN 中的应用服务器之间采用 block I/O 的方式进行数据交换。根据所使用交换机和数据访问协议的不同,SAN 网络又可分为 IP 存储局域网络(IP-SAN)和光纤存储局域网络(FC-SAN)1。
面向对象存储
面向对象存储的基本存储单元是对象而不是块。每个对象是数据和数据属性集的综合体,他包含了文件数据以及相关属性信息,对象可以根据应用需求自我管理数据属性。从而简化了存储系统的管理任务,增加了灵活性。对象存储综合了NAS和SAN 的优点,同时具有 SAN的高速直接访问和 NAS 的数据共享优势,提供了高性能、高可靠性、跨平台以及安全的数据共享存储体系结构存储。固定内容寻址存储(CAS Content Addressing storage)是面向对象存储的一种形式,固定内容是指一旦生成就不再发生改变的信息,比如数字媒体(图像、音视频等)、法律和参考文档、医疗影像、电子邮件、银行票据等。SAN、NAS 存储文件是按照地址存放文件,用户找文件的时候一定要知道它放在哪个磁盘分区的哪个目录里,否则就要搜索。而CAS 没有分区、没有目录,用户不需要记住文件路径,只需要把数据交给CASCAS 给用户一个数字指纹,靠一串数字和字母组合的数字指纹来识别用户存储的数据。当用户需要找这个数据的时候,要提交数字指纹来获取数据。一方面减少了维护系统的人工成本开销,另一方面,免维护性也增加了数据的安全性和可靠性。
本词条内容贡献者为:
方正 - 副教授 - 江南大学