自然语言理解系统输出鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息
例如,对自然语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等
同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工作也得到了重视和加强
(1)大规模真实语料库的研制
大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础
没有它们,统计方法只能是无源之水
(2)大规模、信息丰富的词典的编制工作
规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的
虽然上述新趋势给自然语言处理领域带来了成果,但从理论方法的角度看,由于采集、整理、表示和有效应用大量知识的困难,这些系统更依赖于统计学的方法和其他“简单”的方法或技巧
而这些统计学的方法和其他“简单”的方法似乎也快达到它们的极限了,因此,眼下在自然语言处理界广泛争论的一个问题便是:要取得新的更大的进展,主要有待于理论上的突破呢,还是可由现有的方法的完善和优化实现?答案还不清楚
大致上,更多的语言学家倾向于前一种意见,而更多的工程师则倾向于后一种意见
回答或许在“中间”,即应将基于知识和推理的深层方法与基于统计等“浅层”方法结合起来
自然语言处理理论上的一种突破就是自然语言的实质理解,关于自然语言真正理解的研究已取得进展
以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。