蛋白质数据库文件结构

蛋白质数据库文件结构在蛋白质晶体结构数据库PDB中,各大分子结构是以分立的文件形式记录的,这些文件被称作PDB的入口文件(entry)

1个文件只反映某个大分子结构的信息

每个大分子结构通过唯一的ID码(4位代码)来识别

早期的入口文件文件名后缀为“.pdb”,1种大分子对应1个文件,如:阿比西尼亚卷心菜(ABYSSINIAN CABBAGE SEED)种子蛋白的ID码是1CRN,其入口文件名为1CRN.pdb

1997年以后,每1种生物大分子有1组(3个)相关文件与之对应,它们是:全文文件、书目文件和图形文件,例如,抗生素MINORCOATPROTEIN的ID码是1G3P,它的3个相关文件分别为1G3P.full(全文文件)、1G3P.biblio(书目文件)、1G3P.gif(图形文件);免疫球蛋白(IMMUN-O GLOBULIN)的ID码为1AP2,它的3个相关文件分别为1AP2.full(相当于原来的.pdb文件),1AP2.biblio,1AP2.gif,等等

每1个PDB入口文件包含有标题部分、注释部分、1级结构、异质、2级结构、连通性注释、各种特性、结晶学、坐标变换、原子坐标、化学连接、薄记等12个部分

文件中每1行被称作1条记录,也被称作入口(entry),可理解为记录入口

每行包括80列,每个记录入口的最后1个字符是1个行结束符

PDB文件也可以被看作记录类型(recordtype)的集合

它和一般的关系数据库概念不同

在关系数据库的库文件中,每条记录由不同数据类型和数据格式的若干字段组成,所有记录的字段结构都是相同的

而在PDB文件中,包含众多的记录类型,每类记录都有不同的格式

基于记录类型在1个PDB入口文件中出现的次数可将1组记录划分成以下6类之一:single:单次记录型

如HEADER、END、CRYST1……,在1个文件中仅出现1次,没有接续部分

singlecontinued:单次接续型

如AUTHOR、CAVEAT、COMPND……,在1个文件中概念性地存在1次,其内容超过1行,可表示在后续行中,这些后续行包括1个接续指示字段

multiple:多次记录型

如ATOM、CONECT、HELIX……,在1个文件中出现多次,在这类记录类型中信息以列表的形式出现

multiplecontinued:多次接续型

例如FORMUL、HETATM、HETNAM,在1个入口文件中概念性地存在多次,每条记录内容超过1行的部分可表示在后续行中,这些后续行包括1个接续指示字段

grouping:用来作为其他记录类别的分组标志记录型

如:ENDMDL、MODEL、TER

other:其他记录类型,如:JRNL定义坐标系列的文献引用,REMARK表示一般注释

每个记录类型被固定列数分割成若干字段,字段应包含数据类型、字段名和字段定义

没有被定义的列应留空

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关