容错计算技术发展计算机系统的可靠性

容错计算技术发展计算机系统的可靠性一直为人们所关注

早期由继电器和真空管构成的计算机经常不能正常工作

随着人们对计算机依赖程度的不断提高,系统的可靠性就显得更为重要

提高计算机的可靠性有避错和容错两种方法

避错实际上是不容错的,乃是保守设计方法的产物,它以采用高可靠性零件、优化路线等质量控制管理的方法,来减低出错的可能性,但即使是最仔细的避错设计,故障也总有一天会出现,从而导致系统失效

容错是指在硬件或软件故障产生的情况下,仍能将指定的算法准确地完成,同时不使性能降低,即用冗余的资源使计算机具有容忍故障的能力

冗余一般可分为暂存性和物理性两种,前者通过重复执行来实现,后者则使用重复的硬件和软件

1965年美法合作的公共电话网络开始使用计算机控制的电子交换系统

由于服务的特性,系统要求在每40年内中断运行时问不能超过2小时

为了达到这样高的技术指标,生产商讨所有的关键性元件,如处理器和存储体等,进行重复配置

系统运行时使用一组子系统,而重复的一组则处于“热备份”状态或和联机的一组子系统同步运行

系统检测出故障的方式有两种:比较子系统产生的结果;或每一组都由自检模块组成(自检模块是自重复和能够互相比较结果的)

计算机系统发展到今天,已走出条件优越的机房,进入各种复杂的环境之中

航天、航空、过程控制、银行商业事务处理、军事工程等领域的应用,使计算机系统的可靠性问题成为整个大系统能否生存的关键问题

因此,人们对计算机系统的可靠性(reliability)、可用性(availability)和可维护性(maintainability)(简称RAM)进行了深入、细致的研究,提出种类繁多的RAM技术和理论,开发出多种高RAM的计算机系统

容错计算技术随计算技术发展而发展,特别是与VLSI的发展密切相关

早期50~60年代,计算机硬件由分立元件组成,与之相应,容错计算技术集中在器件级和基本功能部件级(运算器、控制器、寄存器等)进行研究,提出了大量的方法来提高逻辑电路的可靠性,大部分检错、纠错码也在这期间广泛应用

用冗余的思想解决容错问题在这期间也提了出来

70年代VLSI技术的出现及迅猛发展,推动了整个计算机工业的发展,改变了人们对计算机的许多基本观念,也使容错技术发生了大转变

计算机器件功能愈加复杂,其内部的冗余逻辑和功能的容错设计使它的可靠性和可测试性有所提高

容错的重点转向处理机、子系统甚至系统级

同时,硬件价格的下降使得人们有能力更多地应用冗余技术来获得高RAM的系统

此外,并行处理、多机系统、分布式系统等的发展给容错计算提供了新的研究领域和课题 

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关