非结构化数据采集

非结构化数据采集在很多知识库系统中,为了查询大量积累下来的文档,需要从PDF、Word、Rtf、Excel和PowerPoint等格式的文档中提取可以描述文档的文字,这些描述性的信息包括文档标题、作者、主要内容等等

这样一个过程就是非结构化数据的采集过程

非结构化数据的采集是信息进一步处理的基础

有许多开源库己经实现了从非结构化文档中采集关键信息的功能,但针对不同格式的文档,所用的开源库不尽相同

例如,Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能

其结构包括:HSSF提供读写Microsoft Excel XLS格式档案的功能;XSSF提供读写Microsoft Excel OOXML XLSX格式档案的功能;HWPF提供读写MicrosoftWord DOC格式档案的功能;HSLF提供读Microsoft PowerPoint格式档案的功能;HDGF提供读写Microsoft Visio格式档案的功能等

PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具

主要特性包括:从PDF提取文本;合并PDF文档;PDF文档加密与解密;与Lucene搜索引擎的集成;填充PDFIXFDF表单数据;从文本文件创建PDF文档;从PDF页面创建图片;打印PDF文档

PDFBox还提供和Lucene的集成,它提供了一套简单的方法把PDFDocuments加入到Lucene的索引中去

另外还有parse-rtf可以对RTF文件处理,SearchWord可对Word和Excel,PPT文件进行处理等等

 

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关