中文信息处理历史背景电脑在1946年由IBM发明,当时的电脑主要用于计算
及至1960年代,商用电脑开始普及,电脑被用于处理大规模的数据,当中其一个重要项目是图书馆的目录整理
在当时,美国国会图书馆及多家大学都有不少来自东亚的藏书
为了有效管理这批藏书,必须要有一套有效处理东亚文字的系统
这套系统包括了两方面:其一是如何把东亚文字储存在电脑内;其二是如何在电脑表示出东亚文字
在过去,每一台电脑都有各自的数据表达方式,使电脑之间不能沟通
及至1960年代美国信息交换标准码(ASCⅡ)的出现,电脑之间才可以互相沟通
不过,ASCⅡ并不能有效处理英文以外的文字
最早可以处理中文的电脑,可以追溯到1970年
在当年举办的日本大阪万国博览会上,IBM公司公开了部分汉字处理系统的技术资料,到了1971年正式发表
当时公布的机种包括有「IBM 2345 汉字印刷机」丶「IBM 029 汉字穿孔机」丶「「IBM System/360-System/370 OS/VS」及「DOS/VSE」等
其後,日本本土公司也争相开发,包括有富士通的JEF(Japanese processing Extended Facility)丶NEC的JIPS(Japanese Information Processing System)及日立的KEIS(Kanji processing Extended Information System)等,全是大型电脑
到了1979年5月,NEC发表了可使用汉字ROM的私人电脑PC-8000系列;到了1982年10月,更开发出有名的16位元的PC-9801私人电脑,能处理汉字的电脑在日本渐渐普及
在七十年代末期,更出现一种专门用作文件的文书处理器,可看成为一种拥有特定功能的小型电脑,八十年代中後期再演化成手提方式,并可打印出汉字
至於输入方式,由1978年9月26日东芝发售「JW-10」起,「假名汉字变换」成为主流的汉字输入法;即以日文拼音的方式,配合人工智能,输入汉字词汇
在还没有真正的中文电脑前,中国大陆部分学者依靠入口日本的电脑来处理中文
1973年,新华社派出考察团到日本,参观了日本共同社丶日立丶日本电气丶松下及东芝等公司
他们看到共同社采用磁芯技术解决了2000左右汉字和片假名的存储问题,并发现工作人员使用大键盘方式输入稿件
他们回国後,提出了采用电脑技术改善新华社收发编印四方面,并由中国四机部(民用机械丶核工业和核武器丶航空及电子工业)与北京市科技局邀请了富士通等公司到中国进行技术座谈会
後来,四机部提出研制汉字信息处理系统
在1974年8月,中国开始了748工程,包括了用计算机来处理中文字,展开了各种研究工作,后来到1980年公布了GB2312-80汉字编码的国家标准,1983年中国科学院研究Unix中文化,1985年推出了Unix中文版
中国台湾省方面,早期美国空军研究部门,曾经与IBM公司合作研发中文电脑,斥资了六千万、历时十年,研究电脑处理中文字的方法,结论是电脑不能处理中文
而当时美国的图书馆开始电脑化,一批中文书有待编入目录
另外,多家公司也开发了终端机式的中文系统,包括有王安丶工技院(中华一号到中华三号)及神通等
这些机器多数采用大键盘的输入方式,有数十至数百个键
到了1976年,中文电脑之父朱邦复发明了一套形意检字法,并在1978年改进为仓颉输入法,以英文键盘输入中文
在1979年,朱邦复提出以图形功能及从显示器的英文字符产生器入手,研发中文电脑,并由宏碁公司出产
之後,在原有英文操作系统上外挂中文系统的方法大行其道,多套中文软件相继推出,包括有国乔丶倚天及仲鼎等
中文信息处理至今经历了两次高潮:1980年代中期到1990年代中期之前,核心内容是汉字的计算机处理问题;经过几年的发展低潮之后,1990年代末,中文信息处理的重点转向语音识别、语音合成和语义处理方面
汉字之难——被打字机抛弃的时代:在二十世纪上半叶,英文打字机的普及极大的提高了文字资料的录入速度
而由于汉字的复杂性,使中文打字机迟迟未能设计出来,再加之基础汉字的学习难度大、时间长,连鲁迅都喊出“汉字不灭,中国必亡”
之后,虽然设计出中文打字机,但要配备数千个铅字组成的大字盘,昂贵的机器成本和复杂的使用技术决定它不能普及到大众使用
毛泽东对此也深感无奈,发出了中文“要走世界共同的拼音文字道路”的慨叹
这些局限于历史条件所限而做出的言论,在中文信息处理技术发展后期仍然被经常(断章取义的)提及
1984年的《参考消息》有这样的记载:“法新社洛杉矶8月5日电 新华社派了22名记者,4名摄影记者和4名技术人员在奥运会采访和工作
在全世界报道奥运会的7000名记者中,只有中国人用手写他们的报道”……此时只有中国人仍然用手写从事着创作
汉字成了被打字机抛弃的“落后文明”,直到二十世纪八十年代PC技术推广下,中文PC系统问世,中文信息输入的问题,才有了初步解决
汉字的拉丁化问题:汉字拉丁化,是给汉字进行注音的方法,从而易于中西方交流,或者代替汉字
有些人以为将汉字改造为字母文字,希望以此在短期内大幅增加中国人民的识字率
缘起:中西方的交流很早就有了,而不同的文化交流需要语言的沟通,汉字拉丁化可以实现西方人对中国的了解
近代以前,汉字的拉丁化基本由西方人进行
近代中国遭受了一系列的变故,彻底打破了中国固有的文化自豪感
中国近代的一些思想家认为中国古代的一些历史遗留阻碍了中国的发展,包括孔子思想、礼教等,其中也包括汉字
汉字由于其字数众多,学习比较费劲,而且由于师承不同,字的具体写法也有不同
近代科学大量引入中国,汉字在这些概念面前变得不够使用,又由于新文化运动影响,汉字改革遂成为主流的社会思想
其中刘半农、鲁迅等提倡尤甚
过程:最早的汉字拉丁化的实践来自于中西方的交流,若要介绍中国的一些地名、人名或其他固有名词到西方,必会涉及汉字拉丁化的问题
明清西方传教士为了学习汉字和传教的需要,开始系统用拉丁字母给汉字注音
1605年天主教耶稣会士、意大利人利玛窦(Matteo Ricci)的《西字奇迹》具有开创性的系统化意义
1626年耶稣会士金尼阁出版的《西儒耳目资》是最早用音素给汉字注音的字汇,所用的拼音方案是利玛窦方案的修正
1867年,在英国使馆任中文秘书的威妥玛(Thomas F. Wade)出版了一部《语言自迩集》,创立了一个拉丁化的威妥玛拼音,使用时间很长,对汉字的拉丁化起了重要作用,以后的方案都有参考
1918年中华民国教育部公布第一套法定的37个民族字母形式的注音字母方案,特点是采用符号表示声调,这虽然不是一种直接的拉丁化方案,但用符号表示声调的方法却延续到汉语拼音方案
1928年中华民国教育部公布第一套法定的拉丁化拼音方案-国语罗马字(简称国罗),特点是用字母的拼法来表示汉语的声调,实际上由于流传时间较短,时间起到的作用不大
1958年,中华人民共和国公布的第二套法定的拉丁化汉语拼音方案,使用了26个拉丁字母,用符号表示声调,但是这种符号不易在西式打字机上实现
1980年代,汉语的信息化进入日程,形成“万码奔腾”的局面,汉语拼音方案作为重要的拼音输入方法得到使用,使汉语较能同信息化接轨
汉字信息处理阶段:硬件:联想、巨人、四通等公司的汉卡;浪潮、紫金的中文电脑;四通中文打字机;大洋字幕机软件:输入法:巨人M6403汉卡企业:联想、方正、四通等一批靠中文处理产品起家的企业
标准、基础研究:中文信息处理界基本上完成了词频统计、多种字体显示/打印字库、汉字显示/打印技术、输入法、内码标准、字符集标准等与字相关的所有基础工作
倪院士说,到2000年,中国已制定了70个与中文信息处理相关的国家标准
学术理论:1990年代中期,最为普及的计算机操作系统由DOS升级到Windows平台
微软公司从中文版Windows 3.2开始,在操作系统里集成了汉字处理技术,使传统中文信息处理产品迅速失去了市场
中文信息处理进入一个低谷,原先做中文信息处理的公司纷纷转行
Windows2000及以上版本,无论采用何种文字,均已支持中文处理
中文电脑、中文编程语言、中文软件互联网时代的中文处理:互联网时代对中文信息处理产生了新需求
互联网上的海量数据为中文信息检索提出了新的课题;其次,外文信息已经多到不能人工完翻译的程度,机器翻译的重要性被提到了空前的高度;第三,手机、PDA等移动设备将信息处理需求变成无处不在,非标准键盘的汉字输入需要有新的方案
大量新的课题出现,重新启动了中文信息工作的热情
壮文汉语信息处理阶段数字图书馆:与此同时,为方便使国内各民族电脑化的步伐加快,政府作出一连串行动去使这些民族的语言更便于“计算机化”
这一连串行动包括以下各项:取消民族语言中的特殊字符,尽可能以26个标准拉丁字母代替
(参看:壮语) 为还未有文字的民族设立以拉丁字母为本的新文字
中国台湾省方面,在1990年代曾引发“中文电脑化”及“电脑中文化”的争议
资策会方面的意见:认为电脑的操作空间有限
如果不让中文适应电脑环境,中文就会失去新时代的活动能力而变成死的语言
学界及业界的意见:操作空间有限的只是短时期的问题
随着电脑发展日新月异,操作空间的限制很快就变得没有意义
政府应该在新时代来临以前,及早制定长远的标准
结果:资策会未能在ISO 10646开始讨论中日韩文字编码空间之前产生一个前瞻性的编码方案,加上当时中国大陆政府的阻挠,使繁体字几乎要在电脑世界消失
后来幸得多方面商讨和配合,同意中日韩三国共享编码空间,成为了今时今日的中日韩统一表意文字,而中国台湾省的一万三千多个字亦准以“民间通用标准”为理由成为了统汉码的参考标准之一
电脑对汉字的亲和性增加,而Unicode在统汉码之后,亦不断推出扩展A、扩展B及扩展C计划,以涵盖历史上所有曾经出现过及使用过的汉字,并为它们编码记录
现时已整理好接近七万个汉字
以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。