Monitor这件事,交给R,放心!

前言

融科集群监控系统(RMonitor),通过实时获取主机内部CPU温度、电源功耗利用、内存硬盘健康状况等数据信息,能够帮助运维人员及时、全面、清晰地了解各个集群节点的工作状况,大大降低计算集群的管理难度和运维成本,是进行计算集群高效运维的监控神器。

1 项目背景

随着计算行业及其相关领域的高速发展,计算集群的实时监控已经成为运维环节中最为重要的部分。保障集群的安全稳定是集群运营的基石,同时也是顺利开展高性能计算相关业务的必要条件。

对于计算集群而言,面对目前集群监控系统的费用高昂和部署复杂,以及存储空间的高占用率等问题,极大的限制了集群的发展空间。

因此,构建一套开源可控、稳定高效、可视化的集群监控平台,对于提高集群管理的工作效率、提升运维水平、降低运维成本、保障集群的安全运行具有重要意义。


【集群监控提高运维效率】

2 客户需求

随着计算业务、大规模应用的不断扩展,设备种类多样化,以及服务器数量的不断增加,使得计算业务的复杂度越来越高。

因此,急需一套集群监控系统,能够通过较小的网络流量和无需消耗用户存储资源空间,从而获得完备的对数据的实时监控。

要求集群监控系统能够及时、全面、清晰地了解各个集群节点的工作状况,如CPU温度、内存硬盘健康状况、电源功耗利用等实时信息。


【集群监控客户需求】

需要集群监控系统符合如下要求:

☆ 准确采集集群各节点软硬件数据信息;
☆ 对数据信息进行分析、归类和存储;
☆ 将CPU/电源功耗以曲线图实时展示;
☆ 可灵活设置报警阈值,发生异常及时反馈;
☆ 可远程控制风扇转速及查看主机信息和日志;
☆ 可灵活调整监控内容和监控服务器数量;
☆ 可通过Web界面提供数据可视化展示和管理;
☆ 可记录和灵活管理用户及其操作访问权限;
☆ 提供方便与外部进行数据交互的对外接口;
☆ 不消耗用户个人空间资源,提高运行效率;
☆ 避免个人信息泄露等安全隐患问题;

以客户需求为中心,不断进行产品方案创新,持续为客户创造价值,是融科公司始终秉承的经营理念。

面对客户对于集群监控系统的迫切需求,融科联创研发中心软件开发团队精诚合作、潜心研发、不负众望,推出了这套融科集群监控系统(RMonitor),极大地提高了计算集群的运维效率。


【融科集群监控系统】

3 解决方案

融科集群监控系统(RMonitor)采用了多线程数据采集技术,以及在数据查询功能方面采用了内存缓存技术,能够将系统监控业务活动所涉及的各环节有序地串联起来。

同时,监控系统能够做到集群状态的可监督、可管控,不仅节省了大量时间,而且保证数据的准确性和可靠性,从而实现了对集群故障的准确定位和预测,保证了业务的正常开展。

融科集群监控系统(RMonitor)能够把很多分散的物理计算资源实现统一化管理,并提供统一的用户作业管理界面,实现作业的统一调度。同时以多维度、人性化方式展示监控信息,便于用户实时掌握系统运行情况。


【融科集群监控系统主机管理】

融科集群监控系统(RMonitor)能够灵活添加/删除/修改/分组节点主机,并对主机信息、CPU温度、电源功耗、系统日志等数据进行实时的监控。

同时,监控系统还能够对用户进行灵活的添加/删除/修改等操作,以及对用户进行多样的角色管理和访问权限的分配。


【融科集群监控系统用户管理】

与此同时,在融科集群监控系统的基础上,针对单节点主机监控需求,我们还开发了融科监控屏幕模块,极大方便了单台主机的监控与维护。


【融科监控屏幕模块外形】

在主机前面板上加装一块小型触摸彩色显示屏,能够实时监控主机内部各类软硬件工作状态,以及对异常状况进行及时告警。

平台信息、负载监控、日志警告、系统设置,轻触屏幕即可将主机状况掌控手中。同时还支持监控内容的个性化定制,轻松打造属于您的主机健康卫士。


【融科监控屏幕模块功能】

4 方案优势

融科集群监控系统(RMonitor),能够实时采集主机运行数据,方便运维人员随时查询分析。系统还能根据数据信息自动进行风险预测和警告。

优秀的运行稳定性、高效性、易用性和可扩展性,能够最大程度减少管理人员的工作量。同时,融科集群监控系统还具有如下亮点:

★ 全中文图形界面,用户轻松上手;
★ 无需占用个人空间资源,提升运作效率;
★ 保障个人信息安全,避免信息泄露;
★ 实现低负载、高性能、全方位的数据采集;
★ 实现高并发、高性能的数据汇聚;
★ 支持不对称计算节点,轻松追加新老设备;
★ 实现高吞吐、低延迟的实时数据处理分析;
★ 具有良好的可移植性和可扩展性;
★ 提供丰富的运营、监控、调试功能,降低运维复杂度


【融科集群监控系统】

5 总结

融科集群监控系统(RMonitor),通过实时获取主机内部CPU温度、电源功耗利用、内存硬盘健康状况等数据信息,能够帮助运维人员及时、全面、清晰地了解各个集群节点的工作状况,大大降低计算集群的管理难度和运维成本,是进行计算集群高效运维的监控神器。