国家卫星气象中心

 


nsmc.cma.gov.cn/


客户需求:

    风云二号C数据处理系统采用当今先进成熟的计算机技术、负载平衡技术、网络技术和遥感资料处理技术,设计开发出的新一代接收、处理、存储气象卫星资料,并提供遥感图像、数据产品服务的国家级综合性信息系统。

n        业务系统。

n        仿真系统。

n        存档系统。

卫星中心使用的大型机调度系统:

n        优点:固定的文件名,单作业重新提交方便,功能强没有非标的输入,调度控制全部在内存,效率高,嵌入式跟踪器时效高。

n        缺点:作业调度控制复杂,正常作业调度流程和重新提交作业调度流程不能同时进行。文件系统超过1天控制更加复杂。

然而,传统的 LSF集群:

n        优点:动态的文件名空间使用效率比较高,单作业重新提交方便,断点恢复不用人工干预,调度控制全部在LSF比较简单,多机负载平衡效率高。

n        缺点:运行管理的可视性差,LSFAPI跟踪状态时效差,重新作业序列安排比较复杂,正常作业调度和重新提交时控制文件管理复杂。

因此,卫星中心对选择新一代的调度系统提出了以下需求:

n        跟踪先进技术

n        采用标准的作业控制符号语言,例如XML作为文件输入和参数传递的符号语言,NASAMODIS解包处理分发系统和NESDISCLASS采用

n        处理流程管理可视化,时效性高。降低管理和维护的难度。

n        要求作业步和作业子序列的重启

n        要求在线配置执行条件

n        严格的质量控制,可靠性,容错性,7x24

 

系统体系结构和方案:

      针对国家卫星气象中心对于负载平衡和调度软件的需求, Platform公司选择Platform Job Scheduler, Platform LSF HPCPlatform LSF Reports.这三种软件配合使用,提供了从卫星数据处理流程定义和执行,到多机器间分布式环境下基于负载平衡的作业运行和调度,再到所有机器的全面负载分析和报表创建,一整套解决方案。 

整个系统大致按如下模式工作:用户通过Job Scheduler的客户端工具或用户定制的工具,创建、触发和管理卫星数据的处理流程。Job Scheduler后端的流程处理服务器响应来自客户端的请求,根据流程的触发条件启动流程,根据用户的指令控制流程运行,同时维护流程中所有作业的相互依赖关系。当流程中作业的运行条件满足时,Job Scheduler的服务将实际作业提交到LSF HPC管理的机群中,LSF HPC的作业调度服务器根据用户指定的条件(如内存、交换区的要求,指定的作业运行机器等)以及系统的负载情况,将作业调度到最合适的机器上运行,同时动态返回作业的运行情况供客户端的用户查询和监控。而用户对流程的控制,也可以通过Job Scheduler传递到LSF HPC,以完成对实际作业的控制。与此同时,LSF Reports通过一系列代理服务(Agent)将机群运行过程中的有关数据通过ETL组件存入数据库中,并根据用户预先的安排,通过ETL组件读取数据库,最终通过报表服务器输出报表。

整个系统的设计体现两个原则:

q       最终用户和IT基础结构的复杂性相分离的原则,既简化了数据处理前端用户操作,又提高了用户的工作效率。

q       系统的可扩展性原则,后端的系统计算能力的扩展和设备的增减,不会影响前端用户的工作。

下面将进一步对这三个软件进行描述:

 

Platform Job Scheduler

Platform Job Scheduler是一套专业的工作流程管理系统,提供可视化的工作流程创建、编辑、运行和监控,极大地简化大型复杂工作流程的定义、运行和管理问题。Platform Job Scheduler提供的主要功能有:

q       可视化的流程编辑、运行和监控, 直观的基于Java的图形界面。 

q       基于SOAP/XML的流程定义,便于用户定制和扩展。

q       跨系统平台与区域,用户可以在前端的WindowsUNIX/Linux客户机上编辑、触发和监控流程,在后端的分布式环境中运行流程。

q       系统开放,用户可方便定义流程中新的应用。

q       方便的流程内作业运行条件定义,用户可指定作业运行的机器和需要的资源等。

q       完整的命令行接口,方便用户更进一步的开发和定制。

q       强大的流程设计语言功能:

§          支持流程嵌套,可定义多级子流程

§          支持流程内和流程间的变量传递

§          支持作业间复杂的依赖关系定义

§          任务数组,简化大量相似作业的运行和管理

§          完善的例外处理和异常警报机制,

q       日历支持。预置30个系统日历,可方便的定制日历(三种编辑模式)

q       完善的日志系统,便于用户随时查询流程历史和排错

q       多种触发机制。支持手工、文件(文件大小,文件有无等)和日历触发。

q       容错性。支持双机甚至多机容错。

 

Platform LSF HPC

Platform LSF HPC是一套专门针对气象、工程等高性能计算领域推出的机群管理系统,支持异构的、分布式Uinx/LinuxWindows计算环境,为用户提供可靠的机群管理、负载共享、复杂的作业管理及调度功能和大规模并行计算的能力。LSF HPC既可单独使用,也可以用作Platform Job Scheduler的底层,根据Job Scheduler的指令运行用户流程中的作业。

Platform LSF HPC的主要功能有:

q       提供企业级的负载平衡管理和作业调度,对用户提供了整个机群的单一映像,使机群像一台服务器一样的工作。

q       功能强大的调度策略,支持对用户的份额和优先级控制,保证资源在使用上的效率与公平。

q       完善的作业控制能力,可以对作业的运行时间、CPU 时间、内存大小、数据区大小、CPU数量、文件大小等进行控制。

q       简洁、高效的机群系统监控和管理机制,系统管理员可以从任何节点,监控和管理整个机群。

q       提供一套Web接口,实现机群开放式的访问,简化用户使用和系统管理。

q       良好的安全性。与AFSKerberos等集成,并提供增强的安全性机制。

q       PVMOpenMP的支持

q       增强的对MPIMessage Passing Interface)的支持,并与多数MPI的实现集成,包括LAMMPIMyrinetQsnetIBM POESGI MPISUN MPIHP MPI等。

q       基于负载平衡的并行作业管理和调度。即根据系统当前的负载情况,为并行程序动态分配计算资源,从而确保并行程序总是运行在负载最轻的CPU上。并且可以设置作业限流,防止并行作业因撞车而使并行运算速度显著下降。

q       完全的MPI并行作业控制,使MPI并行作业可以像单进程作业一样地管理和操纵,如通过简单命令暂停、恢复和终止并行作业等。

q       与系统软件及应用程序集成。Platform LSF HPC可以方便与系统软件及应用程序集成。许多著名的商业应用程序都提供支持Platform LSF HPC的选项。

q       简单记账功能,能纪录每个作业(包括并行作业)的CPU时间和内存使用情况。

q       容错性。在系统级支持多机容错,在机器级支持作业恢复(即机器发生宕机等严重故障时,运行其上的作业会自动转移到其他机器上运行,永不丢失),在作业级支持作业的故障恢复和异常管理。

q       完善的日志系统,便于作业的历史查询和错误追踪。

 

Platform LSF Reports

Platform LSF Reports是一套企业级的负载分析工具,它与LSF HPC紧密集成,提供对机群系统全面的负载和运行状况分析报表。利用这些分析报表,企业可以有针对性地调整系统的性能,优化系统的使用,优化项目或人员的管理;从而减少运营和IT基础建设的成本,并为下一步的投资提供决策依据,以实现投资回报最大化。

LSF Reports能以PDFHTMLCSVComma Separated Values)三种格式输出近百种报表,归纳起来有如下几类:

q       机群总体及各机器的负载分析,如CPU、内存、交换区利用率和内存换页率、磁盘IO等。

q       机群的运行情况分析,如机群中作业运行情况(等待/运行/结束/失败),并行作业数量,作业等待原因,及按机群、机器、队列统计吞吐量(及每小时/每天等待/运行/完成的作业数)。

q       资源的使用分析,可以按用户、项目、队列和应用程序分类统计分析对CPU、内存、交换区、许可证的使用情况。


Platform
公司的技术支持服务

Platform 作为业界公认的分布式资源管理领域的领袖公司,有一套完整的技术支持体系。在全球设立了三大技术支持中心( 其中包括设在北京的亚太区技术支持中心 )以提供本地化5X8 小时在线服务,并在全球设立了7x24 小时服务热线,对紧急问题提供实时服务。

对于购买了技术支持服务的用户,Platform提供如下标准服务:

1、 服务方式:用户可以通过电话或电子邮件等请求在线服务。

2、 响应时间:Platform 公司根据用户的技术问题及严重程度定义有优先级。对于 1 类严重程度问题,30 分钟内应给予响应并报告经理层;对于一般技术问题,4小时内给予响应。所有技术问题应在两星期内解决,如未解决,将提高其优先级并报告经理层。

3、 软件升级:在服务期内,如有新版本推出,公司承诺提供免费升级。

 

另外,针对卫星气象中心的合同,Platform公司在标准服务条款外,特别提供如下额外服务:

1、 从发货之日起,三年的技术支持服务。

2、 在服务期内提供7X24小时响应,并在用户要求下4小时到达现场。

 

本项目技术亮点:

可视化流程管理

高可靠性

n        IBM HA集成

n        Job Scheduler提供流程容错

q       错误重启

q       从错误点恢复

n        LSF作业级容错

q       作业失败码捕捉

q       checkpoint

q       网络或机器故障后业务迁移

项目总结:

现在,国家卫星中心使用Platform公司的调度系统管理着每天数十个卫星处理流程,超过5000个数据处理作业。大型机调度系统的可靠性大大提高,系统维护工作显著降低。

 

用户之声:

“真诚感谢Platform公司对国家卫星气象中心多年来的大力支持和帮助,使国家卫星气象中心拥有具有世界先进水平和前沿技术的资料处理系统。”
                          ――国家气象卫星中心赵金雁

2007-10-16 | 中国,武汉

中国教育科研网格-ChinaGrid第二届学术年会于2007年10月15-16日在湖北武汉举办。

2007-9-25 | 法国,巴黎

Société Générale Corporate & Investment Banking Grid Enables its Credit Risk System with Platform Symphony

2007-9-12 | Melville, N.Y.

Arrow’s North American Components Business Teams with Platform Computing to Provide Mulitvendor Server Solutions

2007-9-11 | VMworld, San Francisco, CA

Platform Computing and XenSource Sign OEM Agreement

2007-8-16 | 中国,乌鲁木齐

第六届网格以及协作计算国际会议于2007年在新疆-乌鲁木齐召开

2007-7-19 | 中国,上海,杭州,南京

英特尔和联想的HPC巡展

2007

Perspectives Newsletter

2006-11-20 | 中国,三亚
PLATFORM参加2006安世亚太用户大会暨十年大庆盛大闭幕

2006-10-14 | 中国,北京
网格,让数据中心消亡?

2006-10-21 | 中国,长沙
Platform在GCC2006(第五届网格与协同计算会议)上的精彩演讲

2006-05-22 | 中国,北京
Platform 2006网格技术应用研讨会召开

2006-03-28 | 中国,北京
Platform 公司被全球领先的行业分析公司评为“最酷供应商”

2006-02-22 | 中国,北京
清华信息科学与技术国家实验室