- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
通过CNN,BiLSTM-CRF和BERT-CRF三种方式进行中文分词实验,并进行对比分析,数据集基于PKU和MSR数据集
中文分词实验
实验目的
利用pku和msr中文语料库对模型进行训练,分别基于神经网络的CNN、BiLSTM-CRF和基于预训练语言模型BERT-CRF完成中文分词任务;
拓展应用基于BERT的联合模型的中文自然语言处理工具FastHan,对MSR、PKU数据集以及PKU与MSR混合在一起的MIX数据集进行微调训练,交叉完成分词与评测;
采用多种指标评估不同模型的分词性能;
对不同模型的分词效果进行对比分析。
实验原理
2.1 基于CNN的分词原理
2.1.1卷积神经网络概念
卷积神经网络的典型组成结构为输入层、卷积层、下采样层(又称为池化层)、全连接层、输出层。其中输入层用于数据的输入,卷积层使用卷积核进行特征提取和特征映射,池化层进行下采样,保留学习到的显著特征,减少数据运算量。每一层的特征由交替连接的卷积层和池化层卷积而成,特征经过前向传导到全连接层,由全连接层将之前的特征图获取的特征拼接为一维向量。前向传导的公式如式2-1、2-2。
(2-1)
(2-2)
其中a为本层(第i层)网络的输入,w为权值向量,b为偏置,f为激活函数。为卷积核和第i层图像进行卷积操作,其输出结果与第i层的偏置相加。公式2-2是将输入经过激励函数运算得到的输出作为下一层的输入。
卷积神经网络的特点在于稀疏连接和权值共享,即它的神经元间的连接是非全连接的——卷积层的神经元只与前一层的部分神经元节点相连,且同一层中某些神经元之间的连接的权重和偏移是共享的,这样大量地减少了需要训练参数的数量。卷积核可看作是一个权重矩阵,在设定步长为m时,卷积核每次向右滑动m个像素,将卷积核上的像素与矩阵上对应像素相乘再求和,可以能够通过局部感知获取到不同窗口的同质特征。若是要实现更多特征的提取,可以添加多个卷积核。由于卷积操作后矩阵会变小,因此会在矩阵边界(外圈)填充0保证输入和卷积后的特征图具有相同的空间尺寸。
池化一般由局部区域内计算得到的平均值(即平均池化)或最大值(即最大池化)来代表该区域的特征。因此池化能够降低数据维度,增强模型的抗干扰性,有效缓解了过拟合的问题。图2-1展示了最大池化的过程。由此易推得,当网络中加入噪声时,未必会影响池化的输出。
最大池化
最大池化
图2-1 最大池化
2.1.2 CNN用于中文分词
基于卷积神经网络的自然语言处理任务中,输入是以矩阵表示的句子或者文本。给定句子,通过嵌入矩阵embedding将词汇索引映射到低维的向量表示,对应词向量序列。
设窗口宽度为,对输入进行一维卷积操作(如式2-3)。卷积得到m个向量。其中(窄卷积)或(宽卷积)
(2-3)
在池化层中对卷积核的抽取结果进行降维操作,获得样本的重要特征。在自然语言处理中,通常采用最大池化,即只取卷积结果中得分最大的特征值保留值而抛弃其他特征。通过最大池化可以把变长的输入整理成固定长度的输入,减小了模型参数数量。
一般在池化层之后连接全连接层,形成最后的分类结果。
2.2 BiLSTM-CRF模型
2. 2.1 概述
我们知道,循环神经网络(RNN)的使用是用来处理序列数据的。在传统的神经网络的模型中,层与层之间通常是全连接的,各层之间的节点是无连接的。但是这种神经网络无法处理序列数据。例如,当我们预测句子的下一个单词是什么时,通常需要用到前面的单词。而循环神经网络(RNN)指的是一个序列当前的输出与之前的输出也有关。具体表现为网络会对前面的信息进行记忆,保存在网络的内部状态中,并应用于当前输出的计算中,即隐含层之间的节点不再无连接而是有连接的,并且隐含层的输入不仅包含输入层的输出还包含上一时刻隐含层的输出。然而,RNN可以处理序列问题,但具有严重的梯度消失问题,具体表现为越往后的节点对于前面的节点感知能力越低。
而LSTM(LSTM,Long Short-Term Memory)则是一种特殊的循环神经网络,可以更好的捕捉到较长距离的依赖关系,比如在文本处理中能够利用很宽范围的上下文信息来判断下一个词的概率。LSTM非常适合对序列数据进行处理,它通过“门机制”来记忆前面节点的信息,以此缓解了梯度消失问题。
但与RNN类似,LSTM的信息传播方向仍然是单一的,这导致当前信息只能借助先前信息而不能阅读到未来的信息。在人类阅读一段文字时,往往对当前词的理解不仅取决于先前阅读的理解,还取决于后面文字的理解。因此,为解决这一缺陷,我们采用BiLSTM隐藏层来获取过去信息与未来信息结果。
然而,BiLSTM可以预测出每一个字属于不同标签的概率,但忽略了标签之间的关联性。而CRF则是结合并改进了隐式马尔可夫和最
文档评论(0)