上海超级计算中心(SSC)是2000年上海市一号工程--上海信息港主体工程之一, 既是上海重要的信息技术基础设施,又是加速上海国民经济和社会发展、提升上海技术创新能力的高科技基础设施。
上海超级计算中心由市政府投资建设,总投资规模一亿元人民币,占地面积lOOOO平方米,建筑面积8l05平方米,座落于张江高科技开发园区,环境优雅,设施先进。
目前,上海超级计算中心正在为全市各行各业提供海量信息处理,为高科技领域的研究开发和技术创新提供高性能计算服务。特别在气象预报、地质勘探、生物医药、基因研究、航空航天、汽车设计、新材料研究等领域获得成功的应用。
系统体系结构和方案:
针对超算中心的这种需求,超算中心规划的高性能计算集群在投入使用后将面对一个开放式的,任务多样的,多用户复杂环境。为了在这种复杂环境下最大限度地发挥计算机的作用,使用户的使用效率和系统的管理效率最大化,必须有一套综合的开放式服务支撑系统。针对该系统所应有的功能,Platform公司与超算中心相关人员进行了多次交流和沟通,最终达成如下共识,即:开放式服务支撑系统应具有如下功能:
- 系统监控
- 系统管理
- 集群访问界面
- 集群管理和作业调度
- 许可证管理
- 统计分析
- 用户计费
Platform LSF HPC是一套专门针对高性能计算领域推出的集群管理系统,支持异构的、分布式Uinx/Linux,Windows计算环境,为用户提供可靠的集群管理、负载共享、复杂的作业管理及调度功能和大规模并行计算的能力。LSF HPC还提供一套Webgui,支持基于Web的访问。
LSF HPC的客户端工具,用来与LSF HPC集群通讯,使客户端能面向集群提交和运行作业。通过LSF HPC Client用户可以不登陆而向LSF HPC集群提交和管理作业、管理集群等。
Platform LSF License Scheduler用于对基于Flexlm的应用软件许可证的调度管理。支持对许可证的抢占式调度(Preemption Scheduling),保证在许可证不足时,优先级高的作业能抢占优先级低的作业的许可证而优先执行。LSF License Scheduler的主要功能有:
q 基于项目优先级的许可证分配和管理
q 多项目和部门间的许可证共享、协调和份额控制
q 与LSF HPC紧密集成,提高许可证的利用率,降低拥有成本
q 提高许可证使用的可见性,便于项目和部门间的成本核算
Platform LSF Analytics是一套用于系统使用情况统计和三维可视化分析软件。特别适合大型企业(超过200台机器,数百上千用户,多个部门,每天运行数千甚至数万任务。)IT综合数据的收集、整理、统计和分析。有利于企业管理者,从纷繁的IT数据中找出真正影响投资回报的因素,从而提高企业运营效率,增加投资回报。
Platform专业服务
Platform专业服务包括:为客户提供集群系统的安装和性能调优,应用软件集成,根据客户要求进行用户界面定制和新功能开发,基于LSF Analytics开发分析模板和计费系统等服务。
在方案具体设计上,将超算中心的需求整合为三个功能模块,分别是:集群访问,资源管理和作业调度,统计分析和计费。另外,考虑到超算中心未来的发展,方案同时提供对网格计算的支持,方便超算中心同国家网格其他节点的资源共享。同时为了系统的安全性,本方案推荐安装两套Web服务器,一套对外,用户接受来自Internet的用户访问,只开放普通用户和VIP用户的功能;一套对内,用于系统管理。
本项目技术亮点:
1、 集群访问
集群的访问接口是一个需要高度定制的模块,现有的产品不能完全满足超算中心的需求。但LSF Webgui和LSF Client已提供了大多数必要的功能,因此,我们将基于LSF Webgui和LSF Client开发一套适合超算中心的集群访问接口,开发的重点是基于用户权限的功能裁减,用户界面重新组合和设计,以及与曙光机器自带的系统监控和系统管理系统集成。
2、资源管理和作业调度
我们将集群管理和许可证管理统一在资源管理地概念下,而资源又可细分为:许可证资源,存储资源和计算资源三大类。对于许可证资源使用LSF License Scheduler管理;存储资源通过系统自带的存储监控系统与LSF HPC结合进行管理;计算资源的管理通过LSF HPC实现; 而LSF HPC的调度服务,将根据资源的使用情况和预定义的调度方法调度和管理作业。
3 、统计分析和计费
由于统计分析和计费的关系非常紧密,计费信息都是建立在数据统计的基础上的,因此本方案将这两个需求整合成一个功能模块。在具体实现上,我们通过在LSF Analytics进行扩展定制,以满足超算中心的需求。
项目总结:
Platform公司针对超算中心的需求,为超算中心规划的高性能计算集群在投入使用后将面对一个开放式的,任务多样的,多用户复杂环境。为了在这种复杂环境下最大限度地发挥计算机的作用,使用户的使用效率和系统的管理效率最大化,必须有一套综合的开放式服务支撑系统。针对该系统所应有的功能,Platform公司的技术方案主要解决了超算中心需求的以下几方面:
q 集群访问界面。
q 集群管理和作业调度。
q 许可证管理。
q 统计分析。
q 用户计费。
需求分析中的系统监控和系统管理功能将通过神威和曙光计算机随机带的监控和管理系统实现,但这两部分功能将被集成进Platform的方案中,以形成一个完全的解决方案,方便使用和管理。