蛋白质数据库文件结构_专业知识

蛋白质数据库文件结构

校园生活/专业知识 2023-08-21 12:41:59 987 来源：互联网

蛋白质数据库文件结构在蛋白质晶体结构数据库PDB中，各大分子结构是以分立的文件形式记录的，这些文件被称作PDB的入口文件(entry)

1个文件只反映某个大分子结构的信息

每个大分子结构通过唯一的ID码(4位代码)来识别

早期的入口文件文件名后缀为“.pdb”，1种大分子对应1个文件，如：阿比西尼亚卷心菜(ABYSSINIAN CABBAGE SEED)种子蛋白的ID码是1CRN，其入口文件名为1CRN.pdb

1997年以后，每1种生物大分子有1组(3个)相关文件与之对应，它们是：全文文件、书目文件和图形文件，例如，抗生素MINORCOATPROTEIN的ID码是1G3P，它的3个相关文件分别为1G3P.full(全文文件)、1G3P.biblio(书目文件)、1G3P.gif(图形文件)；免疫球蛋白(IMMUN-O GLOBULIN)的ID码为1AP2，它的3个相关文件分别为1AP2.full(相当于原来的.pdb文件)，1AP2.biblio，1AP2.gif，等等

每1个PDB入口文件包含有标题部分、注释部分、1级结构、异质、2级结构、连通性注释、各种特性、结晶学、坐标变换、原子坐标、化学连接、薄记等12个部分

文件中每1行被称作1条记录，也被称作入口(entry)，可理解为记录入口

每行包括80列，每个记录入口的最后1个字符是1个行结束符

PDB文件也可以被看作记录类型(recordtype)的集合

它和一般的关系数据库概念不同

在关系数据库的库文件中，每条记录由不同数据类型和数据格式的若干字段组成，所有记录的字段结构都是相同的

而在PDB文件中，包含众多的记录类型，每类记录都有不同的格式

基于记录类型在1个PDB入口文件中出现的次数可将1组记录划分成以下6类之一：single：单次记录型

如HEADER、END、CRYST1……，在1个文件中仅出现1次，没有接续部分

singlecontinued：单次接续型

如AUTHOR、CAVEAT、COMPND……，在1个文件中概念性地存在1次，其内容超过1行，可表示在后续行中，这些后续行包括1个接续指示字段

multiple：多次记录型