自然语言处理研究热点预训练技术预训练思想的本质是模型参数不再随机初始化,而是通过语言模型进行训练
目前NLP 各项任务的解决思路是预训练加微调
预训练对于NLP任务有着巨大的提升帮助,而预训练语言模型也越来越多,从最初的Word2vec]、Glove到通用语言文本分类模型ULMFiT以及EMLo等
而当前最优秀的预训练语言模型是基于Transformer 模型构建
该模型是由Vaswani 等人提出的,其是一种完全基于Self-Attention 所构建的,是目前NLP领域最优秀的特征提取器,不但可以并行运算而且可以捕获长距离特征依赖
当前影响最大的预训练语言模型是基于Transformer 的双向深度语言模型—BERT
BERT 是由多层双向Transformer 解码器构成,主要包括2 个不同大小的版本: 基础版本有12 层Transformer,每个Transformer 中的多头注意力层是12 个,隐藏层大小为768; 加强版有24 层Transformer,每个Transformer 中的多头注意力层是24 个,隐藏层大小为1 024
由此可见深而窄的模型效果要优于浅而宽的模型
目前BERT 在机器翻译、文本分类、文本相似性、阅读理解等多个任务中都有优异的表现
BERT 模型的训练方式包括2种:(1) 采用遮盖单词的方式
(2) 采用预测句子下一句的方式
通过上述2 种方式训练得到通用语言模型,然后利用微调的方法进行下游任务,如文本分类、机器翻译等任务
较比以前的预训练模型,BERT 可以捕获真正意义上的双向上下文语义
但BERT 也有一定的缺点,既在训练模型时,使用大量的[MASK]会影响模型效果,而且每个批次只有15%的标记被预测,因此BERT 在训练时的收敛速度较慢
此外由于在预训练过程和生成过程不一致,导致在自然语言生成任务表现不佳,而且BERT 无法完成文档级别的NLP 任务,只适合于句子和段落级别的任务
XLNet是一种广义自回归的语言模型,是基于Transformer-XL 而构建的
Transformer 的缺点:(1) 字符之间的最大依赖距离受输入长度的限制
(2) 对于输入文本长度超过512 个字符时,每个段都是从头开始单独训练,因此使训练效率下降,影响模型性能
针对以上2 个缺点,Transformer-XL引入了2 个解决方法: 分割循环机制( Division Recurrence Mechanism) 和相对位置编码( Relative Positional Encoding)
Transformer -XL 的测试速度更快,可以捕获更长的上下文长度
无监督表征学习在NLP 领域取得了巨大成功,在这种理念下,很多研究者探索了不同的无监督预训练目标,而自回归语言建模和自编码语言是2 个最成功的预训练目标
而XLNet 是一种集合了自回归和自编码2 种方式的泛化自回归方法
XLNet不使用传统自回归模型中的固定前向或后向因式分解顺序,而使用一种随机排列自然语言预测某个位置可能出现的词,这种方式不仅可以使句子中的每个位置都能学习来自所有位置的语境信息,而且还可以构建双向语义,更好地获取上下文语义
由于XLNet 采用的是Transformer-XL,因此模型性能更优,尤其在包含长文本序列的任务中
无论是BERT 还是XLNet 语言模型,在英文语料中表现都很优异,但在中文语料中效果一般,ERNIE则是以中文语料训练得出一种语言模型
ERNIE 是一种知识增强语义表示模型,其在语言推断、语义相似度、命名实体识别、文本分类等多个NLP 中文任务上都有优异表现
ERNIE 在处理中文语料时,通过对预测汉字进行建模,可以学习到更大语义单元的完整语义表示
ERNIE 模型内部核心是由Transformer 所构成
模型结构主要包括2 个模块,下层模块的文本编码器( T-Encoder) 主要负责捕获来自输入标记的基本词汇和句法信息,上层模块的知识编码器( KEncoder)负责从下层获取的知识信息集成到文本信息中,以便能够将标记和实体的异构信息表示成一个统一的特征空间中
图神经网络技术图神经网络(Graph Neural Network)的研究主要是集中在相邻节点信息的传播与聚合上,从图神经网络的概念提出,到受深度学习中卷积神经网络的启发
图神经网络对于非欧几里德数据在深度学习中的应用有着非常重要的地位,尤其是利用图结构在传统贝叶斯因果网络上可解释的特点,在定义深度神经网络关系可推理、因果可解释的问题上有很大的研究意义
如何利用深度学习方法对图结构的数据进行分析和推理吸引了非常多的研究和关注
通用的图神经网络推理过程可以通过图节点预表示、图节点采样、子图提取、子图特征融合、图神经网络的生成和训练子过程来表示,具体步骤如下: STEP1 图节点预表示: 通过图嵌入(Graph Embedding)的方法对图中每一个节点进行嵌入表示; STEP2 图节点采样:对图中每个节点或存在的节点对的正负样本进行采样; STEP3 子图提取:提取图中每一个节点的邻节点构建n 阶子图,其中n 表示第n 层的邻节点,从而形成通用的子图结构; STEP4 子图特征融合:对每一个输入神经网络的子图进行局部或全局的特征提取; STEP5 生成图神经网络和训练:定义网络的层数和输入输出的参数,并对图数据进行网络训练
1.图卷积神经网络深度学习的流行与卷积神经网络的广泛适用性密不可分,图神经网络的研究中时间最长、研究成果最多的就是图卷积神经网络,从特征空间来看图卷积神经网络主要可以分为频域和空间域两个类型
频域的图卷积神经网络基于图信号处理问题,将图神经网络的卷积层定义为一个滤波器,即通过滤波器去除噪声信号从而得到输入信号的分类结果
实际问题中只能用于处理无向且边上无信息的图结构,将输入信号的图定义为可特征分解的拉普拉斯矩阵,归一化后的特征分解可以表示为通用结构其对角矩阵?就是特征值的??按序排列组成的特征矩阵
2.基于空间的图卷积神经网络与深度学习中卷积神经网络对图像的像素点进行卷积运算类似,基于空间的图卷积神经网络通过计算中心单一节点与邻节点之间的卷积,来表示邻节点间信息的传递和聚合,作为特征域的新节点表示
自然语言处理领域国际顶级会议 ACL 2020 (Association for Computational Linguistics)论文接收结果公布
云知声-中科院自动化所“语言与知识计算联合实验室”共有3篇论文被收录,分别在医疗对话的自动信息抽取、国际疾病分类(ICD)自动编码,以及 ICD 自动编码可解释性等领域取得突破
以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。