人工智能导论-第四课自然语言处理.ppt

下载文档

0
0
约2.34万字
约 49页
2024-10-28 发布于北京
举报
版权申诉
保障服务

人工智能导论-第四课自然语言处理.ppt

1、本文档共49页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

通道（Channels）：图像中可以利用(R,G,B)作为不同channel，而文本的输入的channel通常是不同方式的embedding方式（比如word2vec或Glove），实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积（conv-1d）：图像是二维数据，经过词向量表达的文本为一维数据，因此在TextCNN卷积用的是一维卷积。一维卷积带来的问题是需要设计通过不同filter_size的filter获取不同宽度的视野。Pooling层：利用CNN解决文本分类问题的文章还是很多的，最有意思的输入是在pooling改成(dynamic)k-maxpooling，pooling阶段保留k个最大的信息，保留了全局的序列信息。比如在情感分析场景，举个例子：“我觉得这个地方景色还不错，但是人也实在太多了”虽然前半部分体现情感是正向的，全局文本表达的是偏负面的情感，利用k-maxpooling能够很好捕捉这类信息。***传统的神经网络模型（如卷积神经网络）模型训练好后，不论在什么时候输入同一个数据，输出都是一样的。无法利用历史数据的时间依赖关系，来分析数据特征，从而可能导致对当前和未来产生一些不合理的预测。但在很多实际应用中，数据之间是存在相互依赖关系的。例如，当我们在思考问题时，我们都是在已有经验和知识的基础之上，再结合当前实际情况综合给出决策，而不会把过往的经验和记忆都“弃之如敝履”。比如说，在《战狼Ⅱ》中，当那个中美混血的漂亮女主角一出现，后面的情节即使不看，我们大致也能预测到，无非是“英雄救美女，美女爱英雄”。如果我们试图预测一下“天空飞过一只__”这句话最后一个词是什么？利用前面输入的一连串的历史信息：“天空飞过一只”，我们就能大致猜出最后一个词可能是“小鸟”也可能是“蜻蜓”之类的飞行动物，但定然不能是“人”或“坦克”（常识告诉我们，人和坦克都不能飞），当然也不能是“猪”（即使可能是风口中的猪，但量词“只”也把它过滤掉了）。*书为什么要读百遍呢？它表示一种强化记忆的动作。那什么叫强化呢？就是在前期留下记忆的基础之上再和本次重新输入的“读书”，叠加起来，逐渐沉淀下来，最终成为我们的经验知识。Hopfiled网络是1982年由约翰·霍普菲尔德提出的网络结构，此类网络内部有反馈连接，能够处理信号中的时间依赖性。另外两个模型分别是卷积神经网络（CNN）和深度信念网络（DBN）。*ElmanRNN网络模型除了X向量表示输入层的值，O向量表示输出层的值之外，一共就有三类参数值，分别是U、V和W。假设输入层神经元个数为n个，隐层的神经元个数为m个，输出层的神经元个数为r，那么U是输入层到隐藏层的权重矩阵，大小为（n×m）维；V是隐层到输出层的权重矩阵，大小为（m×r）维。前面这两个参数矩阵和前馈神经网络的完全一样。

那么，W又是什么呢？RNN中隐层s(t)s(t)的值，不仅仅取决于当前输入xx，还取决于上一次隐层的值s(t?1)s(t?1)。如此一来，W表示的就是隐藏层上一次输出值而作为本次输入的权重矩阵，大小为（m×m）维。*在理论上，这个模型可以扩展到无限维，也就是可以支撑无限的时间序列，但实际并非如此，就如同人脑的记忆力是有限的一样。用一个函数f(t)表示经过t步展开后的循环.函数f(t)将过去的所有序列作为输入，从而生成当前的状态，其中θ表示激活函数σ中所有的参数集合。X(t)X(t)表示序列中的第t时刻或第t时间步的输入数据，它通常也是一个向量；向量s(t)s(t)表示的是隐层的值。隐层是RNN模型最核心的模型，也是处理“记忆”信息的地方。激活函数σ是一个平滑的、非线性的有界函数，它可以是前些章节提到的Sigmoid、Tanh或ReLU等。*看到BP这两个字母，就知道它和传统的反向传播算法BP有类似之处，它们的核心任务都是利用反向传播调参，从而使得损失函数最小化。题建模的首要任务就是，确定隐层和输出层的输出函数分别是什么？这里b和c是偏置参数向量。与输入层和隐层不同的是，输出层的设计更加灵活多变，它并不要求每个时间步都必须有输出。比如说，在面向文本分析的情感分类案例中，输入可以是一系列的单词，但输出只是整个句子的情感，它和单词之间并不是一一对应的关系，它只需给出整体的判定分类就可。*这里为了方便计算，我们使用了负对数似然函数（即交叉熵）。y(t)(j)y(t)(j)表示为输出y(t)y(t)的第j个元素。参数θ表示激活函数σ中的所有参数集合[U,V,W;b,c]。*假设当前时刻为t，那么在(t-3)时刻，梯度将递减至(1/4)3=1/64(