高性能计算集群(英语:High-PerformanceComputingCluster,简称HPCC),也被称为数据分析超级计算机,是一个由律商联讯风险解决方案发展的开放源代码数据密集型计算系统平台。
简介HPCC(高性能计算集群)也称为DAS(数据分析超级计算机),是由LexisNexis风险解决方案开发的开源,数据密集型计算系统平台。HPCC平台整合了在商品计算集群上实现的软件架构,为使用大数据的应用程序提供高性能的数据并行处理。HPCC平台包括支持并行批处理数据处理(Thor)和使用索引数据文件(Roxie)的高性能在线查询应用程序的系统配置。HPCC平台还包含一个以数据为中心的并行数据处理声明性编程语言ECL。1
系统架构HPCC系统体系结构包括两个不同的集群处理环境,每个集群处理环境都可以独立进行优化,以实现并行数据处理目的。这些平台中的第一个被称为数据精炼厂,其总体目的是用于任何目的的大量的任何类型的原始数据的一般处理,但通常用于数据清理和卫生,提取,转换,原始数据的加载处理,记录链接和实体解析,大规模特设的复杂分析以及创建键控数据和索引以支持高性能结构化查询和数据仓库应用程序。数据精炼厂也被称为Thor,这个大锤象征着把大量的原始数据压缩成有用的信息。Thor集群的功能,执行环境,文件系统和功能与Google和Hadoop MapReduce平台类似。
图1显示了一个物理Thor处理集群的表示,该集群充当可伸缩的数据密集型计算应用程序的批处理作业执行引擎。除了Thor主节点和从节点之外,还需要额外的辅助和通用组件来实现完整的HPCC处理环境。
第二个并行数据处理平台被称为Roxie,可用作快速数据传输引擎。该平台设计为在线高性能结构化查询分析平台或数据仓库,通过Web服务接口支持在线应用程序的并行数据访问处理需求,支持数以千计的同步查询和用户分秒的响应时间。Roxie使用分布式索引文件系统使用优化的执行环境和用于高性能在线处理的文件系统来提供对查询的并行处理。Roxie集群与Hadoop的功能和功能类似,增加了HBase和Hive功能,并提供近乎实时的可预测查询延迟。Thor和Roxie集群都使用ECL编程语言来实现应用程序,从而提高了连续性和程序员的生产力。
图2显示了一个物理Roxie处理集群的表示,该集群充当高性能查询和数据仓库应用程序的在线查询执行引擎。Roxie集群包含多个节点,其中包含用于处理查询的服务器和工作进程;一个称为ESP服务器的附加辅助组件,为外部客户端访问群集提供接口;以及在HPCC环境中与Thor群集共享的其他常用组件。虽然Thor处理集群可以在没有Roxie集群的情况下实施和使用,但是包含Roxie集群的HPCC环境还应该包含Thor集群。Thor集群用于构建Roxie集群使用的分布式索引文件,并开发将与索引文件一起部署到Roxie集群的在线查询。2
软件架构HPCC软件体系结构包含Thor和Roxie集群以及通用中间件组件,外部通信层,提供最终用户服务和系统管理工具的客户端接口,以及支持监视和辅助文件系统加载和存储的辅助组件来自外部的数据。HPCC环境只能包含Thor集群,或Thor和Roxie集群。整个HPCC软件体系结构如图3所示。2
本词条内容贡献者为:
陈红 - 副教授 - 西南大学