人工智能导论-第四课自然语言处理.ppt

人工智能导论-第四课自然语言处理.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

通道(Channels):图像中可以利用(R,G,B)作为不同channel,而文本的输入的channel通常是不同方式的embedding方式(比如word2vec或Glove),实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积(conv-1d):图像是二维数据,经过词向量表达的文本为一维数据,因此在TextCNN卷积用的是一维卷积。一维卷积带来的问题是需要设计通过不同filter_size的filter获取不同宽度的视野。Pooling层:利用CNN解决文本分类问题的文章还是很多的,最有意思的输入是在pooling改成(dynamic)k-maxpooling,pooling阶段保留k个最大的信息,保留了全局的序列信息。比如在情感分析场景,举个例子:“我觉得这个地方景色还不错,但是人也实在太多了”虽然前半部分体现情感是正向的,全局文本表达的是偏负面的情感,利用k-maxpooling能够很好捕捉这类信息。***传统的神经网络模型(如卷积神经网络)模型训练好后,不论在什么时候输入同一个数据,输出都是一样的。无法利用历史数据的时间依赖关系,来分析数据特征,从而可能导致对当前和未来产生一些不合理的预测。但在很多实际应用中,数据之间是存在相互依赖关系的。例如,当我们在思考问题时,我们都是在已有经验和知识的基础之上,再结合当前实际情况综合给出决策,而不会把过往的经验和记忆都“弃之如敝履”。比如说,在《战狼Ⅱ》中,当那个中美混血的漂亮女主角一出现,后面的情节即使不看,我们大致也能预测到,无非是“英雄救美女,美女爱英雄”。如果我们试图预测一下“天空飞过一只__”这句话最后一个词是什么?利用前面输入的一连串的历史信息:“天空飞过一只”,我们就能大致猜出最后一个词可能是“小鸟”也可能是“蜻蜓”之类的飞行动物,但定然不能是“人”或“坦克”(常识告诉我们,人和坦克都不能飞),当然也不能是“猪”(即使可能是风口中的猪,但量词“只”也把它过滤掉了)。*书为什么要读百遍呢?它表示一种强化记忆的动作。那什么叫强化呢?就是在前期留下记忆的基础之上再和本次重新输入的“读书”,叠加起来,逐渐沉淀下来,最终成为我们的经验知识。Hopfiled网络是1982年由约翰·霍普菲尔德提出的网络结构,此类网络内部有反馈连接,能够处理信号中的时间依赖性。另外两个模型分别是卷积神经网络(CNN)和深度信念网络(DBN)。*ElmanRNN网络模型除了X向量表示输入层的值,O向量表示输出层的值之外,一共就有三类参数值,分别是U、V和W。假设输入层神经元个数为n个,隐层的神经元个数为m个,输出层的神经元个数为r,那么U是输入层到隐藏层的权重矩阵,大小为(n×m)维;V是隐层到输出层的权重矩阵,大小为(m×r)维。前面这两个参数矩阵和前馈神经网络的完全一样。

那么,W又是什么呢?RNN中隐层s(t)s(t)的值,不仅仅取决于当前输入xx,还取决于上一次隐层的值s(t?1)s(t?1)。如此一来,W表示的就是隐藏层上一次输出值而作为本次输入的权重矩阵,大小为(m×m)维。*在理论上,这个模型可以扩展到无限维,也就是可以支撑无限的时间序列,但实际并非如此,就如同人脑的记忆力是有限的一样。用一个函数f(t)表示经过t步展开后的循环.函数f(t)将过去的所有序列作为输入,从而生成当前的状态,其中θ表示激活函数σ中所有的参数集合。X(t)X(t)表示序列中的第t时刻或第t时间步的输入数据,它通常也是一个向量;向量s(t)s(t)表示的是隐层的值。隐层是RNN模型最核心的模型,也是处理“记忆”信息的地方。激活函数σ是一个平滑的、非线性的有界函数,它可以是前些章节提到的Sigmoid、Tanh或ReLU等。*看到BP这两个字母,就知道它和传统的反向传播算法BP有类似之处,它们的核心任务都是利用反向传播调参,从而使得损失函数最小化。题建模的首要任务就是,确定隐层和输出层的输出函数分别是什么?这里b和c是偏置参数向量。与输入层和隐层不同的是,输出层的设计更加灵活多变,它并不要求每个时间步都必须有输出。比如说,在面向文本分析的情感分类案例中,输入可以是一系列的单词,但输出只是整个句子的情感,它和单词之间并不是一一对应的关系,它只需给出整体的判定分类就可。*这里为了方便计算,我们使用了负对数似然函数(即交叉熵)。y(t)(j)y(t)(j)表示为输出y(t)y(t)的第j个元素。参数θ表示激活函数σ中的所有参数集合[U,V,W;b,c]。*假设当前时刻为t,那么在(t-3)时刻,梯度将递减至(1/4)3=1/64(

文档评论(0)

智乾 + 关注
实名认证
内容提供者

科技工作者

1亿VIP精品文档

相关文档