自然语言处理概念和技术

自然语言处理概念和技术信息抽取(IE)信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然语言构成的语料中提取出命名实体之间的关系,是一种基于命名实体识别更深层次的研究

信息抽取的主要过程有三步:首先对非结构化的数据进行自动化处理,其次是针对性的抽取文本信息,最后对抽取的信息进行结构化表示

信息抽取最基本的工作是命名实体识别,而核心在于对实体关系的抽取

 自动文摘自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标:首先使语言的简短,其次要保留重要信息

 语音识别技术语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,也就是让机器听懂人类的语音,其目标是将人类语音中的词汇内容转化为计算机可读的数据

要做到这些,首先必须将连续的讲话分解为词、音素等单位,还需要建立一套理解语义的规则

语音识别技术从流程上讲有前端降噪、语音切割分帧、特征提取、状态匹配几个部分

而其框架可分成声学模型、语言模型和解码三个部分

 Transformer 模型Transformer 模型在2017 年,由Google 团队中首次提出

Transformer 是一种基于注意力机制来加速深度学习算法的模型,模型由一组编码器和一组解码器组成,编码器负责处理任意长度的输入并生成其表达,解码器负责把新表达转换为目的词

Transformer 模型利用注意力机制获取所有其他单词之间的关系,生成每个单词的新表示

Transformer 的优点是注意力机制能够在不考虑单词位置的情况下,直接捕捉句子中所有单词之间的关系

模型抛弃之前传统的encoder-decoder 模型必须结合RNN 或者CNN(Convolutional Neural Networks, CNN)的固有模式,使用全Attention 的结构代替了LSTM,减少计算量和提高并行效率的同时不损害最终的实验结果

但是此模型也存在缺陷

首先此模型计算量太大,其次还存在位置信息利用不明显的问题,无法捕获长距离的信息

 基于传统机器学习的自然语言处理技术自然语言处理可将处理任务进行分类,形成多个子任务,传统的机械学习方法可利用SVM(支持向量机模型)、Markov(马尔科夫模型)、CRF(条件随机场模型)等方法对自然语言中多个子任务进行处理,进一步提高处理结果的精度

但是,从实际应用效果上来看,仍存在着以下不足:(1)传统机器学习训练模型的性能过于依赖训练集的质量,需要人工标注训练集,降低了训练效率

(2)传统机器学习模型中的训练集在不同领域应用会出现差异较大的应用效果,削弱了训练的适用性,暴露出学习方法单一的弊端

若想让训练数据集适用于多个不同领域,则要耗费大量人力资源进行人工标注

(3)在处理更高阶、更抽象的自然语言时,机器学习无法人工标注出来这些自然语言特征,使得传统机器学习只能学习预先制定的规则,而不能学规则之外的复杂语言特征

 基于深度学习的自然语言处理技术深度学习是机器学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程

与传统的机器学习相比,基于深度学习的自然语言处理技术具备以下优势:(1)深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求

(2)深度学习无需专家人工定义训练集,可通过神经网络自动学习高层次特征

 

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关