中文信息处理研究项目

中文信息处理研究项目汉字信息处理这是一项最关键的语言工程,汉字如不能进入计算机,图书情报工作自动化、印刷出版现代化 、办公室事务自动化都将化为空谈

近10年来,汉字信息处理研究得到很大发展

曾设计了 400多种汉字编码方案(见汉字编码),其中上机通过试验或已被采用作为输入方式的,已达数十种之多

研制了上百种汉字信息处理系统和设备

这些系统主要采用两种类型的键盘:一是笔触式大键盘,另一是小键盘

前一种除整体输入外,一般还有利用部件组合汉字的能力;后一种有的可兼容多种编码方案,有的还带有计算机引导的智能

汉字信息处理除了在汉字编码方面进行研究外,还制成了若干种汉字输入输出专用设备,其中有各种类型的汉字输入键盘、汉字字库、汉字显示终端、汉字图形兼容终端、汉字印字机

成套的汉字信息处理系统(包括汉字编码法、通用中外文键盘、通用中外文显示器、汉字打印设备、汉字库和系统软件等)已研制成功,并安排批量生产

一种最新式的排版系统──计算机激光汉字照排系统也已研制成功

中国的字模生产有良好的基础,1985年 5月国家标准局公布了《信息交换用汉字15×16点阵字模集及数据集》和《信息交换用汉字24×24点阵字模集及数据集》两项标准,为各种设备的设计和推广提供了有利条件

为了使人们摆脱繁重的编码输入工作,汉字的光电自动识别研究提上了日程

近年来有越来越多的单位从事手写体和印刷体的识别研究

邮电部数据所和北京邮电学院提出了象限端点和转动惯量特征识别法,沈阳自动化研究所提出了文字线长度识别法,上海公用事业研究所研制出数字条形识别系统,电子工业部第52研究所设计了提取汉字笔划特征的划分映射法,清华大学研制了有限制性手写体汉字识别系统

为了使各种系统之间的信息交换有共同性,也为了使各种输入输出设备的设计有统一的根据,1981年国家标准局公布了《信息交换用汉字编码字符集基本集》(简称《汉字标准交换码》)

这个标准是根据汉字使用频度制定的,共分两级,一级3755个字,二级3008个字,共6763个字

为了满足少数用字量超过基本集的用户和中国台湾、香港等地区的需要,正在制定《信息交换用汉字编码字符集辅助集》,辅助集将根据使用频度高低分作第一辅助集和第二辅助集,各收8000余字

机器翻译计算机和语言的最早结合开始于机器翻译

1956年,机器翻译被列入中国科学工作的发展规划

1957年,机器翻译研究工作正式开始进行

这可以说是中文信息处理的第一项工程

首先研究的是俄汉机器翻译,并于1959年成功地进行了试验,译文输出是代码,而不是汉字,因为当时没有汉字输出装置

1958年底至1960年初,又研制了一套英汉机器翻译规则系统

1966~1975年工作处于停顿状态

近年来,先后上机试验了英汉、俄汉、法汉、日汉和汉外(英、法、德、俄、日)机器翻译系统十余个

有的输出汉字译文

有的输出拼音译文

语言的对比研究是机器翻译的语言学基础

在外汉机器翻译系统中调整词序是一个中心任务

词序的调整,首先必须分清层次和确定轴心

为了调整词序,有的系统还建立了一套特殊的成分体系,即中介成分体系

介词、连词和标点是机器翻译研究中的难点,对它们的正确分析是解决词序调整问题的关键

当结构分析发生困难时,需要进行语义分析

影响机器翻译发展的最大因素在于译文的质量

就已有的成就来看,机译的质量离理想目标仍相差甚远

中国数学家、语言学家周海中教授曾在论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译质量的

同时,他还指出:在人类尚未明了人脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的

 中文情报检索为了提供标引和检索蓝本,1979年中国科学技术情报研究所出版了10卷本的《汉语主题词表》

中国已有上百个单位开展电子计算机情报检索的试验研究,其中十几个单位已进入定题情报服务 (SDI)的应用阶段

不少单位正在建立各种汉字文献数据库,同时还在考虑联机网络问题

情报检索系统中的关键问题是情报检索语言的建立(见计算机情报检索)

除一般的词汇语法问题外,中文情报检索系统中还有一个特殊问题,就是词的切分,因为检索是以词(关键词)为基础的

④言语统计:中国利用电子计算机进行言语统计是机器翻译工作者开始的

1978年语言研究所和计算技术研究所在合作研究 ECMT-78英汉机器翻译系统的过程中曾编制一个排序统计程序,加工过一些外文资料和汉语拼音资料

1981年北京语言学院等单位开始对人工调查统计的词汇进行计算机处理

1985年完成了《汉语词汇的统计与分析》,在52万多字的汉字语料中统计出18177个不同的词, 这些词出现的总和是374654次,出现最多的单音节词是"的", 出现最多的双音节词是“我们”

1986年 6月又完成了《现代汉语频率词典》

1982年北京航空学院等单位开始更大规模的汉语统计工作,要在2000万字的语料中进行字频和词频统计

部分字频统计结果已经得出,从1977~1982年的1200多万字的语料中统计出8969个不同的汉字,并提供了这些汉字根据不同学科分类的26种使用频度表

辞海由于词的自动切分问题尚未解决,因而词频统计都是在人工调查统计或人工分词的基础上进行的

另外,中国文字改革委员会和武汉大学利用计算机对《辞海》1.6 万多个汉字的部件进行了统计分析,以研究汉字的结构特点

为了研究人名用字的使用情况,中国文字改革委员会和山西大学根据人口调查材料对人的姓名分别进行了统计

很多省份“王”为大姓,而福建省“陈”、“林”为大姓

汉语理解系统最近几年,随着人工智能的进展,语言研究所、心理研究所、自动化研究所和一些大学开展了汉语理解系统(人机对话)的研究

只限于书面语言理解,而且主要是问答型的

输入方式采用汉语拼音

上机试验结果表明,有的系统已有识别30多种句型的能力(见汉语书面理解系统)

汉语语音理解系统的研制正在酝酿之中

计算机辅助语言教学近年来很多人关心这一课题

华东师范大学现代化教育技术研究所、哈尔滨工业大学、上海交通大学等单位已研制出语言教学软件多种(见计算机辅助语言教学)

语音识别和言语合成语音打字的任务早在1958年便已提出

1964年实现了“元音识别机”,1970年前后又实现了10个口呼汉语数字的识别机

但利用电子计算机进行识别研究,则始于 1972年

声学研究所利用语音图样匹配方法在一定范围内实现了单呼语言的识别,正确率达99.5%以上

哈尔滨工业大学利用音素分析法进行汉语识别,正确率达90%以上

汉语合成的研究已在一些单位进行,一般尚处于研究实验阶段

清华大学自动化系最近试制成功一种会说话的中文计算机,机器里存有汉语声韵母等语言数据,计算机会自动根据拼音规则实现拼接,合成语音

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关