超大型数据库现状

超大型数据库现状仔细研究一个非常大的数据库,可以从中得出一些教训,这些教训同样适用于其他大的或不那么大的数据库

Hollebeek 是 National Digital Mammography Archive(NDMA)的技术主管,NDMA 是为容纳一个以每年 28 PB 的速度增长的数据库而设计的系统

NDMA 由 美国国立卫生研究院(National Institutes of Health)资助,它建立了一个分布式系统网格,用于医疗记录和图像的存储

该系统存储乳房摄影检查、MRI 扫描等组成一个“病例”的相关文件,每个病例可能占 1 GB,而这样的病例有数百万个

除了解决存储和访问大量数据的问题外,NDMA 还必须处理与存储在分布在不同地理位置的系统上的密封式(siloed)数据相关的问题——这是全球企业都存在的一个相同的问题

为了与四家参与该项目的研究医院建立连接,NDMA 在每家医院安装了加密的、安全的线路和“接入点(point of presence)”,它们是用于加密文件和使用专用网络协议有效发送大块数据的硬件

“我们的项目规模非常大,而且不能丧失任何医疗数据

我们需要稳定的、高度可靠的技术,这种技术还必须真正快速,并且可以并行,因为系统的结构基于构建并行计算机集群

” Hollebeek 说,“它必须能够容错,因为索引表崩溃或消失是不可容忍的

” NDMA 使用了 IBM DB2 Parallel Edition 软件来存储 数据库索引

NDMA 将实际图像数据存储在并行磁盘矩阵上的平面文件数据库中,由那里用于操作系统(此处为 Linux)的本地文件系统管理

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关