语言信息处理应用

语言信息处理应用语言信息处理是属于信息处理的范畴,即运用现代信息科学技术对自然语言的各个方面进行信息化处理

这些方面包括语言机制的运作、语言规律的挖掘、语言的教学与传播、 语言的交际与运用

因此从应用的角度来看,语言信息处理的任务和学科内容可用“层面”概念来表述,研究发现,语言信息处理应包含四个层面:语言运作技术信息化、语言研究工具信息化、语言教学手段信息化、语言交际方式信息化

这四个层面是语言学和信息科学的不同部分以及其他的学科相结合的产物,是在信息化时代语言系统运作和应用的新模式

语言运作技术层面语言的运作包括语言信息的编码、传递和解码

其中编码和解码由人的大脑完成,信息传递通过外部信道进行

人类对于语言的使用主要依赖两种能力:一种是词汇记忆能力,另一种是语言规则的应用能力,即如何将词、短语和句子组成顺序性或层次性的结构的能力

词汇的记忆构成了人脑中的心理词库 (mental lexicon),而规则的应用能力则来源于语 言习得过程中长期积累而形成的心理语法 (mentalgrammar)

这两种能力共同驱动大脑进 行语言信息的编码和解码,从而实现自然语言的生成和理解

语言运作技术的信息化,就是让计算机模拟大脑的语言运作机制,实现机器自动生成 和理解语言信息

在当今信息爆炸的时代,人们日常需要接触和处理的语言信息数量惊人 的庞大,仅靠人力已经难以应付,因此迫切需要借助计算机来处理这些海量的语言信息, 以减轻劳动强度,提高工作效率

所以,从这个角度上说,自然语言处理的目标并不仅仅是实现通过自然语言进行人机对话,还需要让计算机在一定范围内代替人脑完成各种以自 然语言为对象的复杂工作任务,比如机器翻译、自动文摘、信息检索、信息过滤、语音识别与合成等等

语言运作技术信息化的核心是自然语言的理解和生成

这涉及到语言学、计算机科学、 数学、哲学、逻辑学、认知心理学、物理学等学科领域,其关键问题是要科学合理地揭示自然语言的运作机制和规律规则, 并建立行之有效的数学模型和语言知识的形式化表示方法

根据人脑处理语言的两种主要能力,我们认为语言运作技术信息化的实现主要依赖于 两个方面的工作:语言资源建设和语法、语义的算法设计

机器理解和生成自然语言的根 本前提是我们预先告诉机器足够多的语言知识 ,有了这些语言知识库的支持,机器才能根 据自然语言的语法规则建立的数学模型来模拟人脑的语言运作机制,从而实现信息化的语 言运作

因此,语言资源建设是基础中的基础

语言研究工具层面语言学是一门实证科学,研究语言系统本身是怎样运动和发展的

实证研究通常先做出一些假设,然后运用观察、归纳和类比等方法得到结果来检验假设的真实性

语言的内在规律存在于语言事实中,因此语言学研究结果的科学性取决于对语言事实 观察和描写的精度、广度和深度,以及对语言规律解释的逻辑周延性

语言事实浩如烟海, 语言规律也并不具备科学公理般的严谨,因此语言学的研究一直是一个艰难的探索过程, 在研究的工具和技术上,往往离不开从其他学科中的借鉴

事实上整个科学发展史,语言学的研究在各个历史阶段一直在从当时主导的学术思潮 和科学技术中吸收养分

比如在中世纪的欧洲,经院哲学大行其道,表现在语言方面就是 传统语法的推行

传统语法亦称规范语法,它像法律条文一样,硬性规定一套语法规则, 让人们按照这些规则去说去写,而不顾及它们是否与实际生活中的语言相符,也不考虑语言本身的发展变化

文艺复兴时期自然科学摆脱了神学的束缚而迅速发展起来,语言学家们也开始历史、客观地进行语言研究

那时的语言学家们吸取了生物进化论和动植物分类 学的观点和方法,对语言进行对比和谱系分类,并在此基础上发展起来了历史比较语言学

到了十八世纪拉瓦锡引导的“化学革命”对语言研究有着巨大影响

语言学家们开始采用化学结构式的方法来研究语言,将语言划分为不同层次:音素、语素、词、词组、分句、 句子,力图从一堆素材里按照严格的分析手段,一步一步地得到其中的结构成分

在二次 世界大战后,科学技术出现了一系列划时代的进展,对事物的研究从定性的描述逐渐过渡 到定量的研究,数学在整个自然科学体系中的地位日益凸显,与语言学也发生了密切的联 系,生成语言学应运而生

生成语言学家把语言看成是一个数学的目标,建立了类似于数 学中的公理和推理规则

在当前的信息时代,信息技术已经成为所有学科的辅助研究工具,语言学也不例外

语言研究工具的信息化包括两个方面,即语料获取、存储、检索的信息化以及语言规律与语言学知识发掘过程的信息化

这涉及到信息技术的多个方面,如文本处理技术、网络技术、数据库技术、软件工程以及计算语言学本身的分词技术、语料库技术等

与人脑相比,计算机的显著优势在于其海量的存储功能和高速的数据检索、排序与计算功能,这两个方面正是语言学研究特别需要的

观察到的语言知识越全面、越细致,得 到的语言规则越精确、越科学,因此大规模的语料库是现代语言学研究必不可少的工具; 而各类分析处理语料的专门软件和数据库工具,则会使语言学家如虎添翼,极大地提高工作效率

就目前的状况而言,各种类型的数字化语料库如雨后春笋般不断涌现,其规模也越来 越大,结构越来越科学,内容越来越丰富,这部分资源已经在语言学研究中发挥着重要的作用

可是另一个方面,专门为语言学研究而开发的辅助软件却十分匮乏,这种状况严重制约了语言研究工具信息化的进程

语言教学手段层面语言教学是应用语言学最早和最主要的研究领域,语言教学方法和教学手段的探索则 一直贯穿整个应用语言学的发展历史

现代信息技术与语言教学的结合源于现代计算机技 术发明后不久

在计算机出现后十年左右时间,美国就开始了计算机辅助教学的研究,二 十世纪五十年代则应用到语言教学领域,到了六十年代计算机辅助语言教学(Computer Assisted Language Learning,简称 CALL)已经逐渐盛行起来,迄今为止已有四十多年的历史

四十多年来语言教学观经历了从行为——结构主义到认知主义再到社会认知主义的变迁

同时计算机技术也实现了从大型主机到个人计算机再到网络型的、多媒体计算机的巨大飞跃

在二者的共同影响下,语言教学手段信息化也取得了长足的进步

进入二十一世纪以来,多媒体与网络技术、虚拟学习环境、人工智能在语言教学中的运用,为以网络为中心的计算机辅助语言教学提供了更加广阔的天地

无论从 CALL 本身的发展还是人们对 CALL 的认识与运用,都推动了信息技术与语言教学(尤其是外语教学)的整合发展

CALL 的作用也受到了前所未有的重视,被视为外语(与第二语言)教与学的“利器”,已成为一种流行的语言教学手段

技术的迅速发展和理论研究的相对滞后带来了一系列的问题和矛盾,引发了诸多的争鸣

比如教师和学生在新的语言教学模式下角色的定位问题、语言学习过程对机器的过分依赖引发的技术异化问题、语言学习者的情感因素与情感交互需求与缺乏情感冷冰冰的机 器之间的矛盾、信息化环境下语言习得规律的变化与发展等等

这些问题是语言教学手段信息化必须面对的问题,期待着进一步的理论研究

对这些问题的深入研究,是语言教学 手段信息化从目前广泛的实践尝试阶段走向理论发展成熟阶段所面临的新挑战,也是时代 赋予语言信息处理研究的历史使命

语言交际方式层面语言交际方式分语音交际与文字交际,从古到今它们分别沿着不同的技术轨迹向信息化的方式发展

语音交际经历了空气传播——有线电(电话、有线电视和广播)——无线电(对 讲机、移动电话、无线电视和广播)——语音数字编码技术(网络电话、语音聊天)的发展历程,文字交际则经历了书信(鸿雁传书、邮政传递)——电传电报传真(FAX)——无线寻呼机(BP)——电脑网络(EMAIL、BBS、IRC)——手机短信(SMS)的发展历程

在网络通讯和手机等现代移动通讯高度普及的今天,信息化交际是除了面对面的语言交际外人类最主要的交际方式

据统计,2008 年全球手机短信发送量高达 2.3 万亿条

来 自中国电信部门的统计数据显示,仅 2009 年 1 月 25 日除夕当天,通过中国移动网络发送 的短信达 46 亿条,通过中国联通网络发送的短信达 4.97 亿条

这从一个侧面反映了人类 的语言交际方式已经全面进入了信息化时代

人类交际过程中对语言信息的发送与反馈具有很强的即时性要求,我们可以预言这种需求决定了今后以手机为代表的嵌入式手持信息处理终端必将主导语言交际方式信息化发展的主流方向

因此,手持嵌入式系统的语言技术应用解决方案是语言交际方式信息化的 关键因素

这些技术包括嵌入式系统中的字库设计及其调用技术、字符显示技术、文字输入技术、语音处理技术、文本检索与信息抽取技术等

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关