案例 运维一体化平台建设实践
来源:欧宝直播    发布时间:2024-02-19 15:08:21

  为应对新的国际竞争环境与新的国内监管形势,行业数字化转型方兴未艾。云计算、大数据、AI等技术方法已逐步从后台应用走向前端业务,渗透至投研、营销、风控、运营的所有的环节。在数字化转型的浪潮下,支撑业务运行的应用系统和基础设施变得愈发复杂,维护成本及风险也慢慢变得高,给运维管理带来非常大的挑战。如何建设更安全、高效、智能的运维管理体系,已成为行业IT建设的重点议题。

  鹏华基金把数字化转型纳入到公司发展的策略,践行“系统+流程+数据”三位一体的方式,将系统建设与业务流程紧密结合。在此过程中,由于涉及新系统的建设及存量系统的升级改造,团队需要管理的运维对象及场景都在发生明显的变化。受限于“烟囱式”的运维工具体系,运维管理面临“工具孤立效率低”“管理规范难落地”“组织提升遇瓶颈”三大难题。

  为了解决运维团队在数字化转型过程中遇到的各类难题,鹏华基金以工具建设为抓手,依托理念先进的运维PaaS平台,以点带面,对运维管理体系做全面优化升级,主要涉及工具支撑体系、流程管理体系、指标度量体系及人员组织体系的优化建设。

  将运维支撑工具的建设思路由“烟囱式”变为“平台化”,基于PaaS底座,建设以“管控一体、平台一体、联动一体”理念为核心的运维工具体系。

  管控一体:所有上层场景,如监控采集、自动化执行等场景,基于单一Agent实现,避免多Agent对服务器性能造成的性能损耗。

  平台一体:通过PaaS架构实现能力的治理和沉淀,包含作业、自动化编排引擎、工单流程引擎、容器管理等底层能力,使运维系统避免烟囱模式和重复投资建设,实现可持续建设。并通过平台的运维开发能力助力团队实现运维自主可控和能力升级。

  联动一体:以运维基础平台为底座,CMDB配置管理库为基础,通过IT管控流程建设、监控告警建设、运维自动化工具、运营可视化的建设,构建联动一体的运维工具体系,提升运营保障效率,打造差异化的竞争优势。

  第一,建设以消费为核心的CMDB。梳理整体配置信息,完成模型设计和定标以及对云平台、操作系统、数据库、中间件的配置自动化发现及采集,支撑监控、巡检等消费场景,并实现配置变更自动化管理,集成自动化运维场景,实现从审批流到自动化执行再到配置数据回写的闭环,如资源申请场景。申请人提单-管理员审批后实现资源的自动化注册至CMDB中。通过联动流程管理平台,实现配置数据录入及变更的流程化、规范化、自动化,保障配置数据的统一和准确性。

  第二,建设以事件和数据双核驱动的一体化监控体系。一体化监控体系以数据和事件双核驱动,旨在解决监控及告警信息分散管理的问题。监控中心按照硬件设施层、操作系统层、组件服务层应用性能层等维度梳理监控对象,所有监控对象都源自于CMDB,并在接入来自Zabbix、Prometheus等监控源的性能数据时,打上CMDB中的模型及实例标签,进而实现面向对象的监控指标统一管理体系,包含指标内容定义、指标自定义启停等。同时,监控中心汇总的监控数据也可作为运维大数据分析的数据源,消费于统一可视化展示、Web视图展示、报表统计展示等场景。告警中心实现告警事件的统一汇总,并通过和CMDB、自动化、ITSM等运维工具的无缝联动,在告警收敛、分派、转工单、自愈等层面实现了提质增效。

  第三,建设敏捷IT服务管理工具。落地IT需求、变更、事件等管控流程以及IT内部服务流程,与监控、CMDB、运维自动化工具集成,实现管理流程和运维工具的联动,并结合飞书移动端应用落地,提升流程管理的敏捷性,显著提升部门流程处理效率及关单率。

  第四,建设自主可控的自动化运维工具。结合实际运维场景需求,基于运维平台所提供的前后端开发框架,通过对平台服务的灵活调用和组装,快速构建支撑工具和运营系统。

  第五,建设运营可视化。发布一系列大屏展示IT资产、流程、监控、安全等工程和管理视角的数据,包括IT流程驾驶舱+CMDB资源大屏+监控大屏+通过平台大屏设计器,自主设计和对接数据源开发的信息安全大屏。

  按服务类型的区分规划服务目录,将服务目录划分为IT内部服务、IT管控服务以及内置审批目录三个大类。对于用户而言,便于理解和选择,可通过Web端、IM端快速提单;对于流程管理者而言,有助于针对服务的技术特点来管理和优化。

  运维开发转型起源于互联网行业,为应对残酷的竞争,网络公司需要从各个维度提升经营效率、减少相关成本。开展运维开发转型,实现工具自主掌控,便是降本增效的路径之一。鹏华基金在引入运维PaaS体系之后,积极开展运维开发转型的培训及学习活动,鼓励团队转变发展方式与经济转型。在这样的一个过程中,具备一定工具开发能力,同时有更高成长追求的人率先由运维转型为运维开发,自主研发自动化巡检中心SaaS,改变原先离散型巡检方式,有效支撑部门日常巡检统一管理,整个工具构建过程可大致分为三大步骤。

  第一步,梳理原子能力。巡检场景可划分为获取巡检对象、执行巡检命令等操作。其中,获取巡检对象要使用到CMDB原子能力,基于CMDB批量获取巡检对象,如主机、数据库等;执行巡检命令要使用到作业执行原子能力,基于Agent在受控机器上执行作业命令,完成巡检操作。第二步,编排原子能力。将上述原子能力按串行、并行、判断、循环等逻辑判断串联起来,构建运维自动化流程。第三步,SaaS能力封装。基于PaaS平台提供的前后端开发框架及免运维托管环境,将巡检自动化流程封装为SaaS工具,提升易用性。

  有了自动化巡检的成功案例,“工具文化”正逐步渗透到团队的每一个角落,不断加速运维组织转型的进程。巡检中心:利用平台开发框架,自研巡检中心,统一各业务巡检任务,并实现飞书移动端开发,有效支撑部门日常巡检统一管理。

  绩效看板:自研绩效门户,结合工单数据,展示研发效能看板。运维管理通知中心:对接飞书群机器人,分时段通知IT管控流程相关节点。

  CMDB的建设是一个逐步完善的过程。在建设过程中通过数据运营的方式能很好地辅助配置经理“监控”CMDB的状态,数据运营的手段包含:数据孤岛、关联完整性、属性完整性及属性规范性。

  数据孤岛:即此实例没有跟任何实例关联,没有配置负责人维护这个实例数据,或者是现实中这个资源对象没有人使用。

  关联完整性:部分对象可能有重要的关联没有维护,而这个关联会影响到核心场景的消费,例如故障影响分析。

  属性完整性:本质是针对配置管理员认为重要的需要填充的属性进行全方位检查,例如:检查资源对象的负责人属性是否填充。

  属性规范性:CMDB建设过程往往是连续的持续优化的,在建设初期对于模型属性的规范往往没考虑清楚,为了收集数据初始化进CMDB,往往这一段时间数据的质量是比较差的,在建设的过程中,逐渐根据消费场景对属性的规则有了更加清晰的定义后,我们应该通过定义某些规则,对当前的CMDB数据来进行规范性的检查,本质而言是一个后置的工作。

  统计事件总数、SLA、满意度调查等IT服务管理指标,持续分析和改进IT服务质量。通过ITSM工单沉淀价值数据,对需求、事件、变更的统计分析,建立效能指标数据体系,有效帮助IT内部管理。

  监控覆盖率主要是监控对象采集覆盖率、监控指标策略覆盖率两个指标,主要衡量监控的推广使用情况。监控对象采集覆盖率一般是通过监控任务覆盖的对象实例数和CMDB中该对象的实例总数作对比得出;监控指标策略覆盖率,一般是某个实例的指标策略配置数和该实例的总采集指标数作对比得出。

  告警分级大体上分为三级,致命、警告、提醒。致命告警一般代表服务已经异常,需要马上做处理;警告告警一般代表如果不进行及时处理,服务即将异常;提醒告警一般代表一些潜在问题,需要开始关注或提前采取行动,避免异常产生。

  故障管理指故障处理过程的相关指标,包含MTTI(平均故障发现时间)=发现时间-发生时间;MTTA(平均故障响应时间)=响应时间-发现时间;MTTR(平均故障恢复时间)=恢复时间-发生时间;MTBF(平均无故障时间)=运行时间-故障时间。而故障管理的根本目标便是缩短MTTR,提升MTBF。

  为满足业务数字化转型诉求,鹏华基金基于“平台一体、管控一体、联动一体”的先进理念,组合多种技术方法和管理工具,实现了数据、资源、人员的统一管理和协调,解决了过往“烟囱式”工具建设带来的难题,并通过PaaS平台的运维开发能力,开启了运维团队SRE转型之路。展望未来,面临云原生转型趋势,可建设融合Trace、Metric、Log的全栈可观测体系,解决复杂分布式架构应用的故障管理问题;面临AI技术的冲击,可尝试在运维场景中利用深度学习、自然语言处理等技术,如监控场景下的智能阈值、告警管理中的告警智能聚类等。