业务连续性计划基本要素BCP的基本要素笼统地说,BCP的目标只有一个,那就是确定并减少危险可能带来的损失,有效地保障业务的连续性
而有关BCP的一些特定目标我们将在以下各个部分中加以描述
BCP实施的最终结果是:每个企业所制定的BCP都应该有每个企业或者所处行业独有的特色,彼此之间不会完全一致,但大致上说来,一个完备的BCP主要是由以下一些关键部分构成的:一、 危险评估危险评估就是认识并分析各种潜在危险的结果
这些危险的来源可能是:所有的危险都应纳入企业的危险评估范围,并且应对各种危险的可能来源地进行较准确的定位
对于每一种危险的来源都应该认识到:比如说,如果按照有无警示性先兆来分,各类危险还可以分为:如果按照危险的破环类型或程度来分,它们对业务的影响可以分为:显然,对于企业来说,一个完备的BCP必须尽可能多地考虑到所有可能的危险情况,只有处理灾难性事件的计划而没有处理应用系统失误的计划,这样的BCP是不完备的;反之亦然
企业所制定的BCP应该同时兼顾两个方面——预防和控制
例如,人为事故和蓄意破坏可以通过物理安全和个人行为的评测来预防
而应用系统的错误则可以通过对软件的有效评测与测试来预防
危险评估的最后结果应该是一份有关危险效益分析的详细陈述报告,要有对危险的精确描述、哪些危险可能发生,以及需要采取的保障业务连续性和缓和危险的措施,同时要有因为克服了危险而带来的收益分析
这份报告还应该描述清楚任何现有的前提或者限制因素
二、 业务影响分析(BIA)业务影响分析(Business Impact Analysis)实质上就是对关键性的企业功能、以及当这些功能一旦失去作用时可能造成的损失和影响的分析
对于企业业务运营的关键人员来说,他们需要分析:A. 影响B. 业务恢复需求在进行了这些分析之后,才有可能对企业的各种功能进行分类:a)关键功能——如果这类功能被中断或失效,就会彻底危及企业的业务并造成严重损失
b)基础功能——这些功能一旦失效将会严重影响企业长期运营的能力
c)必要功能——企业可以继续运营,但这些功能的失效会在很大程度上限制企业的效率
d)有利功能——这些功能对企业是有利的;但它们的缺失不会影响企业的运营能力
根据各种功能的恢复需求,企业便可为上述各类功能制定标准的恢复时间架构
例如,关键功能<1天;基础功能:2~4天;必要功能:5~7天;有利功能:>10天
影响分析可以帮助企业确定各类业务功能的优先顺序,换句话说,也就确定了各业务功能的优先恢复顺序
BIA有助于定义恢复对象
在进行了影响分析之后可能会发现,在一次灾难之后恢复业务运营时,首先恢复部分功能就足够了,比如说在24小时内先恢复日常业务的40%就够了
详细定义好在灾难或业务中断之后保障业务功能运营的资源需求也是可能的
这些资源需求包括基础设施、人力资源、文档、记录、设备、电话、传真机等,无论需要什么资源都要有完备的规范要求
拥有适当的细节要求是非常重要的,因为在危险事件发生时,会产生一定程度的慌乱,到那时再决定这类细节已经不可能了
成本因素在进行影响分析时也是不能忽略的
我们需要记住以下一些事项:三、 策略BCP应包括以下策略:A.预防 预防的目的在于减少灾难发生的可能性
有关预防的策略应该包括制止和预防控制
制止控制可以减少危险的可能性
预防控制则是保护企业的弱点区域,以防御危险的发生并降低其影响
这两类控制在实际运营中广泛存在,比如经营场所的安全、人员控制、相关基础设施(如UPS、后备电池、烟火探测器、灭火器等)、软件控制、相关的存储和恢复等
企业希望保障其资源(包括信息资产)的可用性和安全性,其安全策略必须针对这些对象而制定,并且提供有关资源使用和管理的指南
在熟悉了企业的所有资源、资源的布局以及危险管理等之后,才可能拿出实施安全策略所需的必要的控制措施
这些控制措施或安全举措必须时时加以检查和测试
如果一种安全策略,能将预防措施都部署到位,可以监控对系统的入侵并防范那些试图破坏系统的行为,那么其本身就是一种制止控制
预防计划的执行必须小心谨慎
必须保证实施安全策略时既不能对日常业务带来限制,出现瓶颈,也不能引起可用性问题,或者给系统的访问和使用带来障碍
B.响应 响应就是当危险发生时的反应
它必须能够阻止危险的进一步扩大,评估危险的程度,通过与外部世界的正常通信联络挽回企业的声誉,并启动必要的恢复时间表
对业务中断的第一反应应该是告知所有相关的人员
如果危险有事前警示的话(比如这次的非典爆发),那么这种告知就可以提前进行
及时的告知非常重要,因为这可能会给阻止危险的进一步扩大创造机会
如果在适当的时机执行一次关机、一次转换或者一次撤离,甚至有可能完全防止危险的发生
但是这需要有诊断或探测控制的存在
这类控制或者可以持续扫描以探测发生中断的征候(网络、服务器),或者可以从外部资源搜集信息(自然灾害)
准确的告知程序必须事先制定好
必须清楚地记录在案:需要告知谁,怎样告知,由谁告知,而且还得有逐步扩大的机制
在BCP中必须设立好一棵告知树
最初的告知发送给一组人,然后再由他们中的每个人去告知另一组人,依次类推
属于这棵告知树的人都有不同的责任和作用,所涉及的人员应包括:还有很重要的一点就是每一个团队都应明确第二负责人
万一第一负责人没有通知到或者无法负起责任,那么必须告知第二负责人
告知可以使用各种工具或手段:如手机、呼机、短信、电话和E-mail
每个团队都应当有相应的配备
危险评估团队应该是最早(或者与管理团队同时)被告知的
他们应当最早来到现场,以便评估所遭受的危险程度和级别
如果工作现场已经遭到破坏,那么他们就应该做好各项准备,一旦允许进入现场就开始工作
评估过程本身也应有计划地进行,必须与保障业务连续性的优先顺序密切相关
这就是说评估团队应当意识到危险所影响到的工作区域和工作流程是否对整个业务的运行至关重要
这将有助于他们优化其评估进程,同时也可正确地关注关键性工作区域
这支团队需要察看以下事项:有了危险评估团队提供的有关受损程度和受损区域的详尽信息,技术团队便可立刻投入工作
BCP必须拥有一组基于业务影响分析和持续性目标的预设参数,这些参数应该能够区分出中断和灾难的不同性质,同时也能评价出危险的严重程度
当危险评估团队和技术团队开始工作时,其他BCP团队也应依照警示告知到位,以便按照连续性计划采取应当采取的行动
C.业务接续(Resumption) 业务接续只涉及那些时间敏感的业务流程,要么是在中断发生后立即接续,要么是在可允许的一段平均时间后接续,但不是对所有业务的恢复
一旦BCP被激活,命令将从指挥中心发出
这个指挥中心应该是在一个不同于日常经营场所的地方
该中心应配备相应的通信设施、办公设备,可能的话还应该构建局域网和VPN
需要做出的第一个决策是,关键性业务的运营能否在日常的工作场所或者在一个备选场所很快恢复运营
备选场所可以分成以下几类:(a)空场所(Cold Site)——该场所只需配备必要的环境条件即可,比如说,应配备电话插座、电源以及UPS等,但要避免其内有任何其他设备,它的作用就是准备将保障业务持续所需的全部设备搬移进来
(b)热场所(Hot Site)——该场所是一个完全的备份场所,有人员工作的空间,所有设施一应俱全,数据备份也是最新的
一旦灾难发生,BCP团队只需进驻该场所就可开始工作,不会有额外的时间拖延
(c)温场所(Warm Site)——该场所实际上就是配备了部分设备的热场所,数据备份不算最新,但也不能太旧
(d)机动场所(Mobile Site)——该场所是一个具有较小设施配置的机动场所
可以位于主要经营场所附近,因而也可节省关键人员在路程上花费的时间
(e)镜像场所(Mirrored Site)——该场所在所有方面都与主要经营场所完全相同,信息和数据也与主要场所同步
实际上该场所就是正常状况下的一个冗余场所,因而通常也是成本最高的一种选择
在备选场所(或主要场所,如果仍然可用的话),工作环境需要恢复
通信、网络和工作站需要设置
与外界的联系必须持续畅通
企业可以首先手动恢复一些业务,直到关键的IT业务可以继续运行为止
当然,如果恢复计划(下面就要讲到)允许,那么关键业务功能也可采用自动方式迅速恢复
D.业务恢复(Recovery) 业务恢复是启动时间敏感度稍低一些的业务流程
业务恢复的开始时间要取决于接续那些时间敏感的业务流程需要的时间
在进行业务恢复的场所(可以是主要经营场所或备选场所),需要在备份的设备上恢复操作系统,并按照关键性次序恢复必要的应用系统
当服务于关键功能的应用系统恢复之后,则需要从备份磁带或其他异地备份媒介上恢复数据
备份数据也必须经常保持同步,也就是说,重建的数据应当与业务中断之前的某一预先确定的时点的数据相吻合
该时点的选择取决于关键业务的要求
由于商业数据有各种不同的来源,因此重建的每一种数据都必须达到所需的数据一致性状态
经过同步的数据必须经常进行复查并保持其有效
这种复查必须强制执行,因为在危险发生的紧急关头,不可能再有闲暇来测试数据是否可用
因此,必须要有一套清楚的方法、策略或复查清单来执行这个让数据保持其有效性的过程
一旦数据达到了可靠的状态,企业的事务就可以加速运行,因为灾难已经得到处理,所有的关键性功能都已得到接续
逐步地,其他业务也可开始恢复其功能
E.复原(Restoration) 复原则是修复并恢复主要的经营场所
最终是要在原有的场所或者一个全新的场所完全恢复所有的业务流程
就在恢复团队开始从某个备选场所开始支持恢复运营的时候,对主要场所的全部功能进行复原的工作也可以展开
如果原有场所在灾难后的确无法恢复,则需要在一个新的场所进行复原工作
恢复团队和复原团队的成员有可能是同一组人
必须确保该复原场配备必要的基础设施、设备、硬件、软件和通信设备
而且要对该场所能否处理全部的业务流程进行测试
执行上述所有行动的计划应当包括一个时间跨度定义,确定在某一跨度内必须完成哪些行动
这个时间跨度的定义必须与企业的恢复目标相一致
BCP团队必须意识到,如果在任一时点,他们的行动超出了规定的时间跨度,那么这个意外事件就必须立刻上报到指挥中心,由指挥中心马上制定相应的解决办法,否则企业就无法实现其恢复目标
四、 指标定义在危险评估和业务影响分析阶段之后,保持业务连续的基础业务就已经显现出来
我们在上面已经说过,按照业务术语可将企业的业务功能分成4类,即关键业务、基础业务、必要业务和有利业务
这种分类可以让业务连续的优先顺序十分清晰,这样,业务恢复的目标就可以用下面的指标进行量化:
以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。