IT运维自动化概览

大型数据中心运维管理“智”关重要

从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营管理者最为关注也是最棘手的问题。在看来,高品质的数据中心运维管理“智”关重要。

复杂多变的市场环境,快速发展的业务,促使数据中心管理者对IT运维管理提出更高需求,传统的“重建设,轻管理”的IT思维禁锢着数据中心IT系统的价值发挥和潜力发掘。

在后信息时代,管理服务的价值愈发凸显,激发着数据中心管理者对于如何提升管理质量和效率的思考和探索。

宁波是国内最早提出建设智慧城市并启动实施的城市之一。近年来,宁波依托发达的临港产业、制造业基地和外向型经济等优势,为智慧城市建设提供了广阔的发展空间。A数据中心是宁波市规模较大的数据中心,总建筑面积超过8000平方米,拥有逾1000台机柜,参照五星级机房标准进行建设。该数据中心承担着华东地区多个行业多家重量级企业的IT系统入驻、应用和管理维护。

对于如此规模的数据中心,需要一套完整、规范、切合需求的运维管理体系和一支具备丰富运维管理经验和极强的运维管理能力的运维管理团队协助其实现高效运维管理。

整合先进的数据中心运维管理经验和技术,将IT运维管理流程与A数据中心的需求和发展进行科学匹配,建立了一套完善的运维服务管理体系,按照ITSS科学的方法论实现“人员、流程、技术、资源”四大要素的整合,将规划、运维及管理以规范化的IT运维管理方式贯穿整个运维管理过程,制定了专业而全面的维护流程、制度、预案以确保优质的服务水平。

运用科学的管理思路,为该用户解决IT基础设施的管理难题。为保证电源无间断故障产生,采用部署两路市电常供、柴油发电备用的安全方案,双管齐下保证电源环境常年无间断。通过对各种应用系统采用“事前监控预警、事后及时响应”的备战策略,一方面通过先进的监控预警平台,防患于未然,大大降低故障产生率;另一方面对已发生的故障快速响应,积极“灭火”,最大程度地降低了故障损失。

在服务团队及A数据中心管理团队的通力配合下,该数据中心建立了完善的IT系统维护流程、规范的操作制度、详尽的应急预案,并定期进行多种类别的应急演练,保障业务开通和故障处理及时率达99%以上,电源供电可用率99.99%。通过建立安全运维机制,实现7×24电信级集中监控以及7×24小时现场维护值守,对数据中心的网络、动力、环境、消防等系统进行集中监控和预警,现场值守人员进行日常巡检和维护作业,并进行现场处置。其中,现场维护按专业分为IT维护组和动力维护组,并设置动力支持、网络支持、客户服务经理、资源管理和质量分析等支持岗位。相应岗位人员具备专业资格和多年维护工作经验。

数据中心运维管理工作是一项长期的、具有累积效应的工作。以稳健、可靠的服务在历次考核中获得优秀成绩。而随着该数据中心的用户进一步增加、IT设备更加复杂多样,的运维服务管理能力也将面临更高的考验。


图片 1


从这些数据中可以看出,如何保障数据中心IT基础设施运维管理的可靠和安全,已经成为数据中心运营…

上个月,北京亦庄某数据中心柴油机起火事故再次为数据中心运维管理敲响了警钟!

德讯DCIM解决方案为数据中心提供全方位智能化管理

近年来,国内金融市场逐步全面开放,金融国际化趋势加速,中国金融市场竞争空前激烈。随着金融业信息化进程的不断深入,金融业数据中心所需的信息系统、业务系统不断增多;数据中心的各种设备逐渐增多,运营成本也相对提高。数据中心运营商始终努力采取多项措施来控制数据中心的成本,努力实现高效率、低成本的运营模式。因此,对数据中心进行基础设施资源优化管理,已成为金融系统在信息化建设过程中不可回避的重要议题。

目前,金融机构数据中心均建设有多个管理系统,其中包括环境监控、系统监控、远程管理系统、风险控制系统等。在日常的运维中,常常存在以下一些管理复杂性问题:


多权限分配及多密码管理:为了保证各个业务系统的安全、稳定的运行,需要设置不同的管理密码与操作密码,针对每个管理系统分配各自的管理权限。这种复杂性的操作管理严重影响机房运维人员的工作效率。


多系统频繁切换管理:由于系统各自的独立性,在日常的运维中,需要在各系统中进行切换查看、排除故障原因,最终解决故障,这会影响故障的处理速度与处理效率。


不利于快速定位故障点:设备部署在复杂的机房管理环境中,当设备出现硬件更换需求,需要查找资产信息,确定位置后才可以去进行设备维修、更换,严重影响维护效率。


设备管理界面分散化管理:无法直观的、一目了然的掌握机房现状,无法及时排查问题,并掌握系统运行状态。

德讯科技提出的DCIM数据中心基础设施资源优化管理解决方案可以实现在可视化管理界面下、便捷的进行资产管理、运维管理、能源管理、变更管理、环境管理、电源管理等高效、统一的智能化管理流程。在此前提下,可以有效帮助数据中心维护人员规范工作流程,实现精确规划;完善分析处理能力、报告处理能力、审计处理能力。其方案系统部署示意图如下图所示:

图片 2

德讯科技为金融机构数据中心专属打造的DCIM数据中心基础设施资源优化管理解决方案部署完成后,能够成功实现以下重要应用价值:

  1. 统一管理平台

基于DCIM基础设施资源优化系统,实现集网内协议会话、带外运维工具、数据库与应用审计、电源、能耗与环境、资产管理等于一体的3D可视化数据中心管理平台,有效实现了IT与核心基础设施的全面整合,各系统间不再是毫无关联的孤立系统,而是形成了有机的整体,更有利于机房运营和企业综合管理。

  1. 快速定位故障点

DCIM数据中心基础设施资源优化管理解决方案能够提供异常状况逐级报警功能;提供三级报警(如运维人员、主管和主任)与两级审核确认;实现灵活设置处理时段及处理结果的报警提醒;可实时跟踪与处理异常行为。针对报警处理人员的事件处理情况,还可设置审核人员,针对报警处理情况进行审核确认,强化机房系统的监管功能。

  1. 3D可视化管理界面

本方案将所有IT设施状态信息的实时反馈有效结合,以3D可视化效果把整合的数据全部呈现到机房管理者和企业经营者的眼前,有效降低机房管理的复杂程度,真正意义上达到从全局各方面的管理逐步聚焦到局部对应点的管理,使层次化管理再次降低难度;通过有效资源整合与集成,提升了数据中心可管理性与可用性,有如身临机房,简单、直观、全面掌控机房运行动态。

4 系统部署的可扩展性

DCIM数据中心基础设施资源优化管理解决方案支持集中化管理与部署,并拥有非常高的灵活性和可扩展性,能够更好地适应用户数据中心复杂的网络环境和管理需求。适用于具备较多数量运维人员、多样性应用、跨VLAN操作、通过内外网访问等多样化的应用环境,同时可支持多网络管理。

5.兼容主流品牌系统

DCIM数据中心基础设施资源优化管理解决方案除支持德讯自身产品外,还可以同其它主流厂商动环及安防系统、网络监控系统、IT设施运行监测系统等主流品牌系统兼容。

DCIM数据中心基础设施资源优化管理解决方案可细分为3D可视化数据中心呈现系统、动态资产管理系统、微环境及能耗管理系统、以及对其他接口系统(动环、监测、远程管理、堡垒机等)四个部分的建设。DCIM解决方案通过机房的深入管理,为企业决策者提供了一个全方位管理数据中心所有资产能源和设备的平台。将包括电源、制冷、空间管理、服务器、网络连接、存储状况甚至包括物理层安全都全部进行智能化、综合化管理;有效加强系统间关联性,整合资源与集成,提升数据中心可管理性、可用性。通过智能跟踪与预测,加强业务管理灵活性。为管理者提供便捷的管理工具和优化建议数据,大幅度提升管理员的工作效率,加强运维过程的操作安全。

相对于企业领导者关注的资源配置与经济效益问题,全面掌控机房运行状态,为企业制定有利的管理决策提供可靠依据。通过智能跟踪、测量告警、能效管理等功能有效帮助管理者识别并减少配置冗余,节能环保,达到机房最佳资源配置及运行状态,降低企业运营成本并最终提高企业的利润和经济价值。德讯科技始终坚持“以科技及创新改善IT管理方式”的发展理念,不断创新,始终引领IT设施运营管理的发展新航向。

更多详情请关注德讯官方网站或拨打热线电话;亦可扫描下方二维码了解更多产品及活动信息。

图片 3

近年来,国内金融市场逐步全面开放,金融国际化趋势加速,中国金融市场竞争空前激…

IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

人云亦“云”的时代,数据中心作为重要基础设施发挥着必不可缺的重要作用,而随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心的运维难度也“更上一层楼”。尤其是当面临“突发事故”,更是考验一个数据中心的运维能力。

传统运维管理方式存在的问题

A银行以”服务至上、科技先行”的原则,大力推动科技部门和信息系统的建设,并注重强化运维体系建设,提升系统服务水平,保证关键应用的可用性。

数据中心在国内突飞猛进只有十多年的时间,却已从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临更大的挑战。

目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:

   
在A银行科技部门强化运维体系建设的过程分中,A银行运维中心总经理提出了A银行IT运维服务管理的三点和四化指导原则,积极的推动A银行IT服务管理从被动的基础的IT运维工作到主动的高阶段的IT服务管理。

首先,规模超大带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本。其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升。此外,规模集中,导致风险集中,事故影响更大。例如之前亚马逊的数据中心事故,导致了全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。

(1)运维人员被动、效率低

  
 **做好运维的三个关键点就是监管文件明确给以指引的:   运维流程管理、监控及一体化管理、应急管理**

为了保障新时代数据中心的安全,在实际运维过程中,运营商不仅需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题,通过预警机制及相应的流程做到防患于未然,还要科学运用这些数据来为应急措施及节能措施提供可靠的指导依据。

在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。

    加强运维流程管理。进一步完善运维管理流程,健全运维管理制度和标准,重点加强事件管理、问题管理、变更管理、配置管理等关键管理流程和数据管理、机房管理等制度标准建设与执行力。加强管理流程整合,完善信息交互机制,形成闭环管理。强化事件分级制度,建立有效的事件升级及响应机制;加强事件后续分析与处理,不断优化管理流程;建立变更分类标准和变更分级审批流程,完善变更窗口管理制度,有效降低变更对生产运行的负面影响;制定配置参数移植、修改、备份、存储、更新、销毁等方面的管理制度,控制配置操作引发的风险。完善数据存储、使用、传输以及备份管理,进一步制定标准、规范,重点强化客户信息和经营分析数据等敏感数据访问控制、清理、销毁以及数据变形使用管理;进一步加强机房人员、供电、空调、防火管理。

其实,采用智能化的管理手段,可以轻松满足这些需要。以电源管理为例,领先的智能电源管理解决方案供应商力登提供了一整套以智能PDU为核心的机柜内部微环境和供配电监控管理以及整个数据中心平台管理方案:通过智能PDU进行实时远程电源监控,能够对相关参数包括对电流、电压、功率(单位:kVA、kW)和能耗达到±1%计费级准确度,甚至可以单独对每个电源插座的上述相关参数进行监控。除了高效、可靠地分配电源之外,新的iPDU还凭借更多计算和存储功能,可支持新的应用并收集和分析IT设备的用电数据、数据中心内可用电源容量以及机柜环境健康状况;并且提供更多的传感功能与基础架构数据收集点(特别是独特的力登电子门锁)。此外,还能通过Power
IQ电能管理软件对设备所处微环境的温度、湿度、气压等状况进行监控,更重要的是这些计量后的数据会被收集整理,从而为管理者提供决策参考。

(2)缺乏一套高效的IT运维机制

加大集中监控及一体化管理力度。健全生产系统软硬件、网络及应用系统性能监测指标体系,优化监控策略;在实现对系统、设备、网络、基础环境等监控基础上,重点加强对核心应用系统和电子银行渠道监控;构建统一监控平台,统一管理和展现各种监控资源,实现集中告警方式,全面、及时掌握系统整体运行状态,快速定位故障、缩短处理时间;加大对总分行监控系统整合力度,提高总行对分行生产系统监管能力,进一步完善监控、响应、处理、报告、反馈和跟踪机制,实现全行范围基础设施和主要应用系统生产运行情况的全面监控,提高运行管理的全面控制能力。提高运维管理自动化水平,整合操作、维护、监控、响应、处理等管理流程,推进企业级总控中心(ECC)建设,促进运维管理一体化。

图片 4

目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。

加强应急处置,提高协作能力。应急管理包括故障应急处理、高可用冗余建设、灾难恢复计划DRP或业务连续性计划BCP等几方面。

(3)缺乏高效的IT运维技术工具

建立健全应对重大事件(突发事件)的预警、报告、决策、指挥、响应及退出等环节的应急处置机制。制定监测指标,实时监测业务运行状态,及时发现异常情况,及时预警;建立清晰的报告流程,明确报告路线;建立应急指挥、决策体系,统筹协调,高效决策,保证指挥流程畅通;制定应急处置响应流程,加强关键岗位人员配置。

随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

建立应急预案一体化管理体系,建立涵盖总体预案、专项预案等预案框架;统筹预案管理,加强预案之间的衔接与配套;建立有效的预案维护机制,涵盖预案制定、评审、发布、变更和回收过程;制定预案编制规范,保证预案编制质量;强化预案后评价与持续改进机制,保证预案有效性。

IT运维自动化迫在眉睫

根据风险战略与业务连续性目标,制定灾难备份体系建设策略与实施路线;以业务有效恢复为目标,逐步加强灾备体系建设;逐步加大数据、系统、基础设施等各类资源的保护范围以及恢复能力;逐步推进分支机构灾难备份建设,提高电子银行渠道灾难恢复能力,推进外联交易、支付、清算等重要渠道灾难备份建设。

尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。另外,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。

探索灾难备份体系建设模式,加强架构设计,应用技术创新,加强数据中心集约化、标准化、流程化管理;深入研究数据中心“双活”、“多活”建设模式,提高数据中心之间相互备份、切换和接管能力。

现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此,
对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。

同时银行和E8合作把运维绩效考核KPI及SLA又融合进ITIL运维流程管理系统,达到以KPI引导,转化被动的基础的IT运维工作到主动的高阶段的IT服务管理。

首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。

有了上面的三个关键点,做好运维的工作还需要“实现四化”:“合规化、透明化、标准化、系统化”。实现这个四化后,才会有更好的方法和更好的基础去做好运维工作

其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。

1、  合规化从监管以及管理高层与风险管理迫切压力需求的角度来说特别重要;内容是“做好信息安全及应急管理”,需要管理流程与安全及应急管理控制手段结合,如ITIL变更审批流程与堡垒机权限控制系统的结合。如ITIL事件升级到重大事件,再升级到灾难等升级流程及应急流程管理,包括灾备恢复演练的流程。基于以上事例郭总认为“应急管理的一部分也是可以利用一些流程化管理实现的”

再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。

2、系统化就是利用E8.IT运维管理平台,这种IT服务管理系统将各种IT管理流程、运维管理经验、IT服务管理思想系统化,并能不断优化,扩展。

IT运维自动化管理的具体内容

3、 “透明化”就是运维的管理要对内对下透明,对上对外透明,则实现方法是”健全运维绩效考核评价机制以及SLA,服务级别协议与服务报告管理”这几点。

IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前–自动化,这是IT技术发展的必然结果。现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。所谓IT运维管理的自动化是指通过将日常IT运维中大量的重复性工作小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。

“透明化”这一点其中有一点奥妙。银行郭总指出,指标只是其中表象的一部分,关键是如何融合进工作流程中,让每个人都知道KPI,并实时了解掌握自己的当前绩效,真正发挥出的KPI导向作用:好用、易用、有用。做好从时效、质量、满意度等考虑的事件、问题、变更管理的基础工作,包括以SLA、系统可用率考核的重大事件或故障、系统容量、性能管理等工作,做好基础、接口与系统化,才能将
“透明化”有了实现的基础,能使得运维部门有压力和动力从IT运维
转向做IT服务管理,变被动运维向主动服务转变,然后从对内、对下的透明化,转向SLA做到对外、对上的透明化。

简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

4
、”标准化”A银行以银监会的监管要求为基准并结合IT服务管理的最佳实践ITIL制定本行的IT服务管理标准。

IT运维自动化的工具

A银行信息科技部运维中心根据IT服务管理的三点和四化指导原则,积极推进IT运维服务管理平台的建设并于2012月3月份上线了深圳非凡公司的E8.ITSM系统,把IT服务管理的理念和最佳实践融合进IT运维服务管理平台,真正的推动A银行的IT运维管理转变为IT服务管理。

对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:

E8.ITSM是一款比较成熟的本土IT服务管理平台,产品开发公司为深圳市非凡信息技术有限公司,它包括图形化的、具有中国特色的流程管理平台和IT运维管理平台两部分。其中IT运维管理平台包括了运维流程管理、监控及一体化管理平台、应急管理等功能。

监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等;

产品方面:非凡公司秉承着做最适合中国企业应用的ITSM产品的理念,围绕ITIL规范,结合国内企业管理文化,构建以“客户为中心,流程为导向,生命周期管理”的IT运营模式。E8.ITSM据有ITIL核心最佳实践管理工具和工作流程,简洁易用;大集中的IT(应用、系统、硬件、网络)配置库和知识库;
超越ITIL的It综合管理流程;简单高效的E8.Net工作流二次开发平台。

配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置;

经验方面:非凡公司具有多家大中型企业和银行的实施经验;本着对客户负责的原则,非凡公司实施方法采用顾问加产品的方法帮助企业建立IT运维管理体系、规范各岗位职责和流程,把IT运维管理的最佳实践和企业的实际相结合提升企业的IT服务管理水平。

维护事件提醒自动化,是指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人;

系统健康检测自动化,是指定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控;

维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
编辑本段建立高效IT运维自动化管理的步骤

(1)建立自动化运维管理平台

IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。

(2)建立故障事件自动触发流程,提高故障处理效率

所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。

(3)建立规范的事件跟踪流程,强化运维执行力度

IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

(4)设立IT运维关键流程,引入优先处理原则

设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。

变革带来的思考

当变革产生的时候,如果不能主动应对变革,必然会产生失衡,失衡的后果就是信息化建设的坍塌。科技的发展带来了新的IT运维需求,相关服务提供商需
要做的事情是找到应对需求变化的理论方法和技术手段。而用户的信息化管理者需要做的则是找到合理的解决方案并且快速的部署实施。

实际上,无论用户还是IT运维服务提供商,他们所探求的核心目的是一致的,那就是将分散的IT资源进行统一的融合管理。不同的是IT运维服务提供商是解决问题的技术提供者,用户是解决问题的方案使用者。

对于统一的融合管理,需要融合哪些方面?通过什么样的手段进行统一管理?对于这些问题,H3C的iMC2.0数据中心管理解决方案提出了很好的参考意见。

想要做到统一融合管理,需要解决的问题可以分成四个方向:

一、融合的基础设施管理;

二、智能的自动化管理;

三、完善的安全管控策略;

四、开放的IT管理架构。

融合的基础设施管理包括:

1、 统一网络管理平台。通过统一的网络管理平台将海量的网络和服务器节点进行实时的监控,通过有效的阀值设定,实现准确的故障以及与故障报警以及准确定位。

2、 虚拟网络管理。将虚拟网络与物理拓扑图进行结合,动态显示虚拟网络、虚拟机的变化迁移,将原本比较抽象的虚拟机和虚拟网络进行实体化管理,帮助用户解决虚拟化的管理瓶颈。

3、 服务器应用管理。针对计算核心的实施监控,针对服务器本身硬件配置以及相关操作系统、虚拟化系统进行监控管理,确保业务计算核心稳定运行。

4、 业务流量分析。针对网络流量以及相关数据包进行分析,一方面保证相关业务的带宽稳定,同时衡量出不同业务对于信息化资源的需求,另一方面,对网络流量的分析也可以杜绝安全隐患。

智能的自动化管理应该具有的特性包括:

1、虚拟资源自动迁移。服务器虚拟化为保障VM系统的可靠性、灵活性,提供了VM迁移、以及高可用性HA)、热备容错FT)、动态资源池调度
DRS)等特性,这些特性都会影响VM的物理部署位置,而VM接入物理网络设备是需要一定的网络资源配置的,其接入位置的动态性就要求物理网络配置能提
供随需而动的管理能力,否则VM对网络的连通性、安全性、可靠性需求就无法得到保障。为了实现网络配置的动态迁移、随需而动,准确定位VM和物理交换机的
连接关系是关键能力。正在形成标准的802.1Qbg协议不仅保证了所有网络流量都必须在物理交换机上处理,而且通过EDCP/CDCP/VDP等协议解
决了VM和交换机连接关系的定位需求。另一方面物理交换机端口和VM的1:N连接关系,使针对每个VM的网络配置实现精细化控制是非常复杂的,H3C实现
的802.1Qbg方案通过在物理交换机上支持vPort概念,为解决该问题提供了更好的支持。iMC基于802.1Qbg实现了虚拟化环境中网络配置的
自动迁移能力。同时基于iMC对于网络和服务器、VM的融合拓扑分析能力,支持vSwitch环境下的网络配置自动迁移能力。首先根据用户应用对网络资源
的需求,定义网络资源类型。然后将此网络资源类型分配给不同的VM,则VM在迁移或启动时,就会在网络设备中自动分配相应的网络资源。

2、数据中心设备“零配置”。这里所说的“零配置”是相关设备与IT运维系统之间的配置关系。对于企业用户而言,内部的信息化设备的品牌繁多,相关
设备的更新换代也比较频繁。如果运维系统需要针对每一台设备进行配置备案的话,工作量浩大而繁琐。而iMC的“零配置”指的是IT运维系统对于相关设备的
自动识别,相关监控数据的自动采集和抓取,这样既节约了运维系统的上线时间,又降低了管理者的工作成本。
 
3、网络服务自动编排。在云时代的数据中心环境中,我们所面临的不再是一成不变的设备环境,基础设施可能随着业务需求的变换而不断增长、调整。为了屏蔽不
同厂商、不同型号设备的差异,使IT管理员聚焦在服务本身,必须要作到对资源及业务的快速开通,实现高度智能的自动化管理。iMC借助融合的资源管理能
力,将各种资源提供的能力抽象出来,建立统一的机制,实现基于业务的编排能力。
 
4、IT服务水平自动度量。根据ITIL信息技术基础架构库)规范要求,数据中心IT服务部门通过服务水平管理SLA)来保证其服务有效,建立服务健
康水平监督体系,来保证服务达到规定的健康水平等级,即使服务失败,也可以正确分析原因,帮助IT服务部门做出正确的应对决策。

完善的安全管控策略所需要的要素包括:

1、配置合规检查

数据中心规模庞大,设备及系统众多,管理人员经常面临的问题就是大量重复设备配置的规范性、安全性问题。伴随着各种审计体系在级别和频度上的不断增
加,传统的通过人工方式检查设备规范性的审计方法,不仅效率低下,还会存在遗漏,已经无法适应云时代数据中心的安全管控需求。都说安全问题“三分技术,七
分管理”,但是想要把那“七分管理”iMC配置合规检查内置常用的策略,如NSA路由安全建议、PCI、Syslog功能、设备安全高级建议等,以满足用
户的日常检查管理。用户可以自定义合规策略,对网络设备进行配置检查。合规策略包括一个或多个检查规则,一个检查规则分为配置文件、接口、链路、聚合链
路、配置片段、脚本等不同类型,包含支持的厂商、设备系列、检查内容来源、规则内容等信息。用户可通过创建检查任务来检查设备是否符合合规策略,检查任务
包含待检查的合规策略、设备的信息等。检查任务执行完毕后,可以通过报表查看设备违背合规的信息。对于违背合规的设备,用户可以创建违规修复任务进行修
复,及时解决在数据中心环境中出现的配置问题,提高安全等级及各种法案法规的遵从度。

2、设备操作审计

设备资源是数据中心的基础资源,对于设备管理的安全性也是信息安全的重要组成部分。与配置合规检查不同的是,iMC设备操作审计从验证管理员登陆设
备的身份、权限出发,根据企业设定的规则,合理分配访问设备的权限,即明确管理用户可访问的设备,可执行的命令,可完成的操作并记录设备管理员详细的操作
行为信息,以利于以后历史回溯和故障的判断和分析。iMC设备操作审计通过TACACS+协议实现,提供基于接入情境的控制策略,统一的监控设备管理员的
登录和执行命令行操作,支持主流厂商的设备,简化操作员为设备管理员细化权限的过程,为管理带来了便捷。

开放的IT管理架构的特点:

云计算最终的目标是达到系统的按需运营,运营系统能够根据用户请求执行服务的开通。任何一套管理系统,都不可能满足所有用户的需求,在云时代尤其如
此,这就要求用户在建设数据中心时具备开放的管理战略,IT管理系统具备开放的能力。iMC是一个开放架构的SOA平台,所有iMC相关产品都是在此统一
平台上开发的,并在此平台上封装网络服务并开放服务接口,第三方产品可以使用基于iMC
平台和开放的API接口实现对网络资源的调度。

总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

看了这么多内容,相信大家对于IT运维自动化以及iMC已经有一些相关的了解了,感谢大家参与我们的活动,赶快回到论坛领取精美礼品吧,也许幸运大抽奖就会降临到您的头上哦。

论坛活动地址:

网站地图xml地图