InnoBlueCSM 分布式文件系统监控平台

Cluster System Management Platform
首页 > 自研产品 > InnoBlue CSM分布式文件系统监控平台

InnoBlueCSM 分布式文件系统监控平台,是瑞蓝创自主研发的智能运维平台。囊括了分布式文件系统(IBM GPFS)日常运维中的巡检、监控、管理的大部分工作。通过自动化巡检能够自动采集并分析监控数据,大大减轻企业运维人员的巡检工作量。通过监控系统,提供分布式文件系统的实时数据采集和展示,并按照预定义的阀值进行预警。通过标准化、自动化实现分布式文件系统的自动化运维,将运维人员从复杂的传统运维工作中释放出来。

产品功能

由于缺少有效的运维管理工具,难于主动发现并处理分布式文件系统存在的问题,整体处于被动运维。

  • GPFS文件系统运维缺乏专业的运维管理工具,给运维人员的日常工作带来了很大的麻烦。
  • 故障发生后、需要协调各个岗位的人员进行问题定位,通过人工方式处理故障,严重影响系统的业务恢复时间。
  • 应急故障流程、操作脚本,系统切换是否成功严重依赖个人的技术能力和对系统的熟悉程度。
  • InnoBlueCSM融合了IBM GPFS分布式文件系统日常运维的大部分场景:集群配置、软件部署、系统巡检、系统监控、常用操作、日志集中、故障应急等。同时结合我们多年运维积累的丰富经验,提供丰富的知识库供运维人员使用。

    about us image

    InnoBlueCSM 分布式文件系统监控平台架构图

  • InnoBlueCSM 分布式文件系统监控平台主要包括以下几个方面的功能模块: 系统监控、自动化运维、故障告警、知识库管理。

    about us image
核心价值
  • 1、实时监控大屏

    在实时监控大屏中,集中展示分布式系统中关键指标的实时监控数据。

    l 支持按集群、节点进行大屏展示。

    l 监控大屏可以展示GPFS集群的核心运维指标信息:如主机性能、GPFS读写性能、节点性能负载等。

about us image
about us image
  • 2、自动化巡检

    自动化巡检任务包括:数据采集,数据分析,图形化展示,问题告警。能够自发处理所有这些巡检周期中的各项任务,完全不需要人工参与,并将当天的巡检结果主动推送给管理人员(例如,邮件,短信等多渠道通知系统)。

  • 3、系统监控

    支持按角色和用户进行权限控制,不同角色和用户可以在系统中看到对应的分布式文件系统资源使用情况,包括:节点的系统资源、文件系统的使用率、文件系统读写性能、NSD状态等。监控数据具有阈值告警功能,可以在配置页面中,对这些阈值进行定制调整,以满足不同系统的定制化监控需求。

about us image about us image
about us image
  • 4、集群日志大集中

    分布式系统在日常的运维过程中,经常需要登陆多台主机进行问题分析,部分客户由于监管要求,需要申请工单进入ECC操作室登陆主机。

    InnoBlueCSM支持agent和ssh两种方式收集集群节点的日志,实现了Web方式查询日志,告警规则和分析规则业务部门可以自定义。

适用场景与优势

l 适合大型客户分布式文件系统集群数量多、类型多,运维复杂。

l 支持多种平台,包括AIX/Linux,小型机、x86物理机,虚拟机。

l 支持分布式文件系统的标准化安装、定制化配置、自动化空间扩容等。

l 支持多套分布式文件系统集群的自动化深度巡检。

l 支持多套分布式文件系统集群的监控,并支持告警规则的自定义。

l 支持分布式集群日志的大集中,支持web方式查询和分析日志。