书目数据库建设过程书目数据库的建设是一个较为复杂的过程,更是一种集知识、技术和劳动密集于一身的产业
它主要包括数据库的总体:设计、数据的获取与加工整理、数据库的建立、数据库的维护与更新以及数据库的评价五部分内容
数据库的总体设计1、数据库的逻辑设计逻辑设计主要用来确定所建立的书目数据库的用户类型、内容范围和功能要求
首先要确定用户类型,他们各有何特点和特定需要
他们的需求决定了数据库的内容范围和功能
内容范1司是指数据库应覆盖哪些领域和哪些情报源,数据库内应收录什么类型的数据,记录的数量等
功能要求包括书目数据库的更新、校验、检索、输出、存取控制和数据保护等措施
2、数据库的技术设计技术设计主要用来确定数据库的总体结构,库内各种:文档的结构,文档之间的关系,存取路径的选择和文档的物理组织;杆式及存储空间的分配等
数据库总体结构是指库内包括的文档数量、文档类型、各文档之间的逻辑关系,以及数据流程
文档结构设计是指确定文档的记录内容和格式,包括字段组成、字段定义、长度、划分可检字段与不可检字段、设立字段标识等
一般地,一条书目记录应含有文献号、题名、著者、出版、语种、文摘、主题词、分类号等各种必要的字段,且一般包括文献出处
不同的图书情报机构在书目加工时对原始数据的取舍有很大差异
为了统一起见,可参阅新修订的国家标准GB2901推荐的标准格式以及通用国际目录信息交换标准IS02709
文档的物理组织方式设计是指根据计算机数据处理方式、操作系统提供的文件组织方式、存取方式、服务程序以及对存取时间、处理时间的要求,确定各种文档物理存储方式,以加快数据库对数据的存取速度
存取路径的选择是指确定检索途径或检索点以及相应的工作文档,根据检索点来设定索引文档,定义其中的记录
一般说来,每一类检索点都需要一种索引文档来支持
数据的获取与加工整理数据的获取与加工整理,也可称为数据准备阶段,是:幅目数据库建设的一个重要环节
它的成功与否决定了书目数据库的最终价值
数据准备通常包括数据采集、鉴选、著录、标引、文摘加工和审核六大步骤,如《数据准备流程图》所示:首先是数据的采集,即根据设计方案规定的数据库内容范围和数据类型,采集所需要的数据
收集的对象根据需要而定,可能是普通书刊、特种文献、内部出版物、机读磁带、软盘或光盘
采集手段有订购、交换或利用行政手段收集下属机构的数据,或利用现有的传统数据(如书本式文摘、题录、目录、指南等)
收集工作应主要面向图书馆和收藏丰富的资料单位,做到快速、全面、准确,确保数据来源的可靠性、准确性和完整性
鉴选是决定书目数据库具体内容范围的基本方式之一
鉴别真伪、分清良莠是必要的,不能“有书必录”
对于低水平或明显有错误的文献应当摒弃
在选择时,可以文献类型为准则,也可以学科为准则,或以问题或任务为准则
以文献类型为准则,可以专收一种类型文献,如研究报告数据库、专利文献数据库等,也可以收录多种类型的文献;以学科为准,就是所谓“面向学科的数据库”,如(化学文摘}数据库,《核物理文摘》数据库等;以问题为准的数据库,如环境数据库,《污染文摘)数据库等;以任务为准的,有所谓面向任务的数据库,如{航空航天文摘)数据库等
其次是书目数据的著录
著录是对文献内容和形式特征进行分析、选择和记录的过程
为了提高书目数据库的质量和资源共享的便利性,书目数据的著录应按统一的著录原则和标准进行,例如我国有国家标准GB3792.1—83《文献著录总则》,GB37921—83(检索期刊条目著录规则》等,只有遵循了统一的标准进行书目数据的著录,才能保证书目数据库中的全部记录符合标准化和规范化的要求
标引是给数据库中的各个记录赋予内容特征标识的过程
主要是要给出分类号、主题词和自由词等
标引可以是人工标引,即标引员针对文献内容,根据一定的分类表或主题词表给出标引词;也可以是完全或部分由计算机参与的自动标引或半自动标引
自动标i引的原理是,将分类表或词表及有关规则存储在计算机中,通过编制的程序自动完成标引工作,对于在计算机标引过程中进行适当人:工干预的标引就是所谓的半自动标引了
对于中文文献来说,进行自动标引,首先要解决词的自动切分问题
此外,标引还有另一种方式,称为“无标引”或“全标引”,如单汉字检索方式中每个汉字都由计算机做倒排档,因此不需人工参与,故被称为“无标引”
而从计算机的角度来说,对每个汉字均作了标引词的处理,所以也可理解为“全标引”
相对于中文文献,西文文献的自动标引和全标引实现起来就要简单多了
之后是文摘的编写
文摘的编写加工也十分重要
编写文摘应当一针见血,简明扼要
文摘可以由文献著者自行撰写,附于文献之前,也可以由文摘员进行撰写
文摘的编写也应当标准化,我国有国家标准CB6447—86《文摘编写规则》作为编写依据
文摘有报道性文摘、指示性文摘以及报道—指示性文摘等多种类型,不同类型的文摘对编写和长度有不同的要求
编写时应根据具体的需要进行相应的编写
数据准备阶段的最后一关是审核修正
审核修正是指记录正式数据库之前的把关工作
这须由较高水平的人来进行
审核的内容包括数据项是否完备、准确,有关的著录是否符合标准,标引深度是否适当,等等
经过了这六大步骤,数据的准备工作就已基本完成,下一步就应进行数据库的正式建立工作了
数据库的建立1、硬件配置与软件选择进行书目数据库 的开发,必须配有相应的计算机系统,应根据需要购买性能良好的计算机硬件设备
当然,通常情况下,计算机主机系统是已经存在的,建库者要做的是完成必要的终端和外设与主机系统的连接,例如,安装光盘驱动设备,扫描和打印设备等
如果建库工作是在联机网络的节点上进行,那么还要完成设备与网络的连接工作,解决网络数据通讯问题
解决了硬件问题后,建库者需要选择适当的建库和检索软件
建库软件的获取一般有两种途径,一种是购买现成的数据库管理系统软件,另一种是自行编制
当然目前大多采取的都是前一种途径,即直接购买现成的数据库管理软件
我国图书情报部门比较流行的是采用联合国教科文组织推出的CDS/ISIS软件
2、数据录入数据录人就是将前面所说的文献处理结果转化成机读数据的过程
数据录入通常有两种方式:自动录入和平工录入
手工录入的方式是对非机读书目信息的录入
计算机系统显示出一个类似于工作单的表格,上面有用户定义的字段名称,用户只需在这些字段名称之后用键盘录入相应数据即可
为了加速录人工作,用户也可以用其他文字处理软件(如MICROSOFTWORD)对书目数据进行录入,之后再做成批转换;另外还可以利用光学字符识别技术(OCR),让计算机根据一定的印刷或打印字体将文本转化为机读形式
自动录入的方式用于对光盘数据库、磁带数据库或其他类型的机读数据库的数据进行转录或套录
所谓套录,就是从一个或几个计算机中获得数据库的数据,传送到另一计算机中,并将其存储在后者的磁盘或磁带等存储介质上的一种过程或手段
具体地说,就是从联机检索系统或光盘中的数据库中套录下一些书目信息,然后,再将这些书目信息进行、归并、格式转换等再处理,使数据产生新的组合,确立新的结构,从而获得适合特定需要的书目数据库
这种套录建库方式,也称为书目数据库的二次开发
信息技术和数据库业的发展,促进了套录的诞生和推广
目前供发行和服务的书目数据库,不管以何种形式出现,大多可以用适当的方法被套录
这种套录建库优势在于,建库周期短、投资少、易上规模、重复劳动少,使信息资源得到极大程度的共享
但它可能涉及到的产权问题也应引起重视,切勿顾此失彼,带来未曾预计的损失
当手工或自动录入数据后,在建库软件的支持下,计算机自动生成书目数据库的各种顺序文档
这种数据库内的书目信息有其复杂的计算机能识别、处理的机内记录格式,内容主要包括:一条记录的总长度,书目数据的实际起始地址,每个字段的名称、长度,字段间的分隔符、结束符、记录状态的标识符等
另外,数据库所需的各种索引倒排文档也无需人工干预,而由建库程序自行完成
3、程序检查程序检查是指计算机自动对录入的文本进行形式上的审查,例:如,括号是否配对,定义了数字形式的字段是否出现文字;定长字段长度是否符合要求,字段的数据形式,如ⅡSBN号,是否正确,各种标识符号是否有错,是否出现了系统禁止使用的专用字符或非法字符等
计算机对数据的校验可分别在不同阶段进行
经过了这三道工序,书目数据库就已经基本建成了
但在正式投入使用之前,还需要进行试运行
根据规划设计要求,选取一定的检索实例进行检验,通过设计者、使用者和有关专家的鉴定之后,才算完成数据库的建立工作
书目数据库的维护与更新书目数据库投入运行后,由于不断地对文档进行插人、删除、修改等操作,可能会使文档的时空性能变坏,或者是由于原来的文档组织方式已不能适应新的要求,或者新书目的激增使得原来的数据量已不能满足用户的需求,故而必须定期地对书目数据库进行维护与更新,以适应用户要求和文献生产情况的变化
维护主要是指对数据库系统硬件设备的维修、保养和对系统软件功能的修改和扩充
更新主要是指对数据库的数据进行添加和重新组织,它对书目数据库的存在和使用,保证书目数据的质量有着尤为重要的意义
数据库的数据往往不是个别进行插入、删除和修改,而是定期、批量地进行
这种数据库的更新,不仅要对顺序文档进行更新,而且还必须对所有相关的倒排档及索引文件进行重组,这就要求要对新追加的大量数据进行一系列加工处理后重装文献库
重装虽然要开销一定的维护时间,但可以保证检索的快速性,因而是值得的
另外
数据库的更新工作还要随文档的存储方式而:导
顺序文档一般采用尾接扩充法,就是将新的书目记录依次尾接;庄文档后面;索引或倒排文档通常采用重装方法,即将新加记录抽词排序后的文档与原来的排序文档归并,然后重新总体排序,建立索引
另外,在数据库的维护中一定要重视数据库及其文档的备份工作
一般地,顺序文档和倒排文档都应该保存2—3份副本,即不仅保留本次更新的副本,而且要保留前1—2次更新时的副本
这样,如果由于硬件故障等原因使得数据库文档不能正常使用时,就可用副本重装一次,从而保证数据库的正常运行
书目数据库的性能指标和评价准则一个书目数据库 建成后,其构造是否合理,建设是否成功,要依据一定的性能指标和评价准则进行评估
这里我们将简要介绍一些目前得到普遍认可的数据库性能指标与评价准则
1、数据收录的完备性它是指根据数据库的主题范围,看其收录的文献数据是否完整或基本完整
其中最重要的是数据收录的覆盖面
例如,一个特定的书目数据库,其收录是否包括所有类型的出版物,还是某一特定类型的出版物;它所收录的文献包括哪些文种,其时间跨度又有多长;它对核心出版物、一般出版物、边缘相关出版物的收录和覆盖面各有多大
收录完备性是数据库质量的首要指标
因为用户使用书目数据库的目的,是要获得与自己特定情报需求相关的全面资料,如果数据库本身收录的数据就不够全面,那么即便用户非常专业,进行了细致的检索,所获得的检索结果也是不符合要求的
2、数据的准确性书目数据库中所收录的数据必须非常准确,这体现在它与原始材料的一致性、著录的标准性等多个方面
数据库不同于利用手工检索的书目文献,在手工检索的文献中,用户对著录格式的差异、同一词拼写上的不同、字符设备的出入等在一定程度上可以容忍和理解,但在利用计算机进行机检时,这些因素,甚至一个括号使用的不同,都会对用户的利用产生很大影响,无论对建库还是检索都会造成一定的混乱
如果说数据库收录材料覆盖面的高低是取得用户信赖的量方面的因素,那么,数据库中数据的准确性,则是取得用户信赖的质方面的因素
它的混乱将导致用户对整个数据库价值的否认
3、数据库的时效性在这里主要是指数据库的时差,即从一篇文献出版发表到纳人数据库之间的时间差距
数据库的时差就是全库文献的平均时间差距
不同学科领域对时差的要求和敏感性有所不同,对于迅速发展中的学科,如计算机、网络科学,及对现实性要求比较高的信息,如报纸信息,数据库时差的缩短尤其重要
对于情报用户来说,如果他们首先看到了原始文献,然后才从数据库中检索到该文献的信息,用户就会感到该数据库中的信息缺乏新颖性
因此,对一般用户来说的新颖率(即用户最先从库中了解到的信息占库中所有信息的百分比)是数据库时效性的另一种衡量指标
很显然,数据库的时效性与数据库的更新周期有密切的关系
更新周期短,自然能缩短数据库的时差,提高新颖率
4、数据信息含量的充分性信息含量的充分性,主要是指书目数据库中款目苦录:的完备与充分性
例如,为每篇文献记录设置了多少个项目(字段),是否设有摘要,摘要的详略如何
显然,款目中的信息含量越充分,则越有助于用户了解该文献的外表特征与内容特征,从而有助于用户确认一篇文献,判断该文献对自己检索目的的切题程度和价值,判断有无阅读原文的需要
数据信息含量的高低,是数据库内在质量的标志之一
5、词表和标引的适当性词表和标引的适当性主要是指书目数据库采用的控制同表的质量和标引深度的适度性
一般书目数据库均会采用一定的控制词表(包括分类表)作为标引的依据,因此词表本身的质量是制约数据库质量的根本性因素之一
标引是根据文献内容给出词表中有关词(分类号)的过程
标引的深度就是为一篇文献记录赋予检索词的数目
从用户角度来说,标引深度也就是能检索到该文献内容特征的检索点数
检索点的充分与否,关系到检索的查全性能与查准性能
无论是词表还是标引,适度是很重要的
如果词表与标引太简单粗浅,自然无法对数据进行充分完全的描述,因而不能满足查准性能的要求;但如若词表与标引太细太繁,则不仅会增加词表编制及标引工作的成本,增加数据库占用空间,而且也可能导致误检率的提高
除了上述五点之外,数据库的经济成本、著录格式的标准与交换性、数据库设计的合理性等也都可以作为书目数据库的性能指标和评价准则
以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。