|
2006-01-16 | 中国,北京
“超算中心”整合信息资源
对于组织内的异构平台来说,实现“虚拟化”,可以将现有资源和计算机有机地结合在一起,从而有效解决计算机资源不足与资源闲置同时存在的问题。
上海超级计算中心高性能计算开放式服务支撑系统体系结构图
上海超级计算中心(SSC)作为上海市一号工程—上海信息港主体工程之一, 既是上海重要的信息技术基础设施,又是加速上海国民经济和社会发展、提升上海技术创新能力的高科技基础设施。
计算集群连接“信息孤岛”
随着我国信息化应用的日益普及和应用,各地方系统信息资源越来越多。这些计算机资源虽然通过网络连接了起来,但实际上是一个个的“孤岛”。如何将这些资源有效共享利用,成为一大难题。
目前,上海超级计算中心(简称超算中心)正在为全市各行各业提供海量信息处理,为高科技领域的研究开发和技术创新提供高性能计算服务。
超算中心的高性能计算环境有两台集群式高性能计算机组成。一台是现有的神威计算机,该系统由128个节点组成,每个节点配备2个主频为2.4GHz的Intel至强处理器组成。
另一台是即将投入运营的曙光4000a集群式高性能计算机系统,是一个具有十万亿次计算能力的超级计算机,也是中国国家网格最大的主节点机。
超算中心计划将神威和曙光计算机整合在一起,提供一个开放式的高性能计算集群,并配备大型专业应用程序,面向社会提供计算服务。
“衔接”异构平台
针对超算中心的这种规划,超算中心规划的高性能计算集群在投入使用后将面对一个开放式的、任务多样的、多用户复杂环境。为了在这种复杂环境下最大限度地发挥计算机的作用,使用户的使用效率和系统的管理效率最大化,需要一套综合的开放式服务支撑系统。
针对该系统所应有的功能,超算中心与Platform公司相关人员进行了多次交流和沟通,最终达成如下共识,即:开放式服务支撑系统应具系统监控、系统管理、集群访问界面、集群管理和作业调度、许可证管理、统计分析、用户计费等功能。
超算中心选用Platform LSF作为方案的基础,通过简单高效的服务程序将各种异构平台的计算机资源整合成一体,形成一个单一视图的虚拟超级计算机系统,从而让用户可以在机群中的任意节点上,简单方便地了解所有计算机的资源使用情况。
从图中可以看出,在方案具体设计上,将超算中心的需求整合为三个功能模块,分别是:集群访问、资源管理和作业调度、统计分析和计费。
另外,超算中心考虑到未来的发展,需要同时提供对网格计算的支持,方便超算中心同国家网格其他节点的资源共享。
同时为了系统的安全性,该方案推荐安装两套Web服务器,一套对外,用户接受来自Internet的用户访问,只开放普通用户和VIP用户的功能;一套对内,用于系统管理。
1.集群访问
集群的访问接口是一个需要高度定制的模块,现有的产品不能完全满足超算中心的需求。但LSF Webgui和LSF Client已提供了大多数必要的功能,因此,Platform基于LSF Webgui和LSF Client开发了一套适合超算中心的集群访问接口,开发的重点是基于用户权限的功能裁减,用户界面重新组合和设计,以及与曙光机器自带的系统监控和系统管理系统集成。
2.资源管理和作业调度
Platform将集群管理和许可证管理统一在资源管理地概念下,而资源又可细分为:许可证资源、存储资源和计算资源三大类。对于许可证资源使用LSF License Scheduler管理;存储资源通过系统自带的存储监控系统与LSF HPC结合进行管理;计算资源的管理通过LSF HPC实现。
3.统计分析和计费
由于统计分析和计费的关系非常紧密,计费信息都是建立在数据统计的基础上的,因此该方案将这两个需求整合成一个功能模块。在具体实现上,Platform通过在LSF Analytics进行扩展定制,以满足超算中心的需求。
网格应用重在管理
超算中心对于系统技术方案提出了集群访问界面、集群管理和作业调度、许可证管理、统计分析、用户计费等方面的应用需求。针对这些系统功能,Platform LSF实现了根据资源需求进行动态的统一管理和调度。
需求分析中的系统监控和系统管理功能将通过神威和曙光计算机随机带的监控和管理系统实现,但这两部分功能都被集成进Platform的方案中,以形成一个完全的解决方案,方便使用和管理。
由于Platform LSF支持异构平台,实现了计算资源的虚拟化,资源根据作业的需求进行动态调度,因此现有资源可以和将来的计算机可以有机地结合在一起,从而充分保护超算中心的现有投资。 http://media.ccidnet.com/art/2651/20060116/416301_1.html
|
|
|


|