自然语言处理机器学习方法

自然语言处理机器学习方法机器学习是利用数据和经验改进计算机算法、优化计算机性能的多领域交叉学科,可以追溯到17 世纪的最小二乘法、马尔科夫链,但是其真正发展起来应该从20 世纪50 年代算起,经历了“有无知识的学习”的执行、基于图结构及逻辑结构进行系统描述、结合各种应用拓展到对多个概念学习三个阶段的发展,自20 世纪80 年代中叶进入更新的、能够真正使计算机智能化的第四阶段

 利用半监督或无监督的机器学习方法对海量自然语言进行处理也与机器学习的发展历程相对应,大致可以分为两个阶段:基于离散性表示的线性模型的传统机器学习,基于连续性表示的非线性模型的深度学习

 深度学习是一种计算机自动学习算法,包括输入层、隐含层、输出层三部分,其中输入层是研究人员提供的大量数据,是算法的处理对象,隐含层的层数由实验人员确定,是算法对数据进行特征标记、发现其中规律、建立特征点间联系的过程,输出层则是研究人员可以得到的结果,一般来说输入层得到的数据越多,隐含层的层数越多,对数据的区分结果也就越好,但是带来的问题是计算量的加大、计算难度的提升,所幸计算机硬件在近年来取得飞跃

作为推动自然语言处理的最新动力,机器学习展现出了前所未有的优势: (一)克服了语言特征人工标记的稀疏性的缺点,深度学习可以利用分布式向量对词做分类,词类标签、词义标签、依存关系等可以得到有效标记; (二)克服了语言特征人工标记不完整的问题,人工的语言标记由于工作量的繁重,被遗漏的可能性很大,而高效率的计算机进行此项工作可以大大减少这种失误; (三)克服了传统机器学习算法计算量大、计算时间长的问题,深度学习利用矩阵进行计算将计算量大幅压缩

 

以上内容由大学时代综合整理自互联网,实际情况请以官方资料为准。

相关