网站大量收购闲置独家精品文档,联系QQ:2885784924

感知器算法.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
感知器算法

* * 表格是CW的SENNA工具包 * 最大的获益 这个ppt里 考虑的太少 只考虑了以上两点 * * 三个函数 其实是说的一个 在我们的case里p是0(即使不是0也会因为它是固定的对梯度没有固定),最小化交叉熵等价于最小化KL散度 KL散度并非是一个距离函数而是一个对于两个概率分布差异的非对称的度量 维基百科:KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。 * * 中间的都是情感倾向不强的 * * * Duyu、huang都是基于CW Hinton Log-Bilinear MH model Mikolov word2vec的作者 * Bengio提出的理论上是三层模型,如右上角的图,但是为了和word2vec进行统一,将其泛化为下图的四层模型。 即输入层、投影层、隐含层、输出层。 输入是上文n-1个词,投影层是追加,WU为权值pq为向量,隐层为tanh函数,输出层为词表大小,最后将输出向量softmax为归一化概率 * * * * * * Word2vec理论上不属于深度学习,属于特征学习 * CBOW(continuous bag-of-words)和Skip-gram。 在cbow方法里,训练目标是给定一个word的context,预测word的概率; 在skip-gram方法里,训练目标则是给定一个word,预测word的context的概率。 * 当然在工具包里用参数也可以同时选择两套框架 * 1、使用hierarchical softmax做基础 2、任意二叉树也能达到效果,但是信息熵理论给出了最优的方案——霍夫曼树 词频就是好使 好使就行。 * * * X_w代表w词上下文词vector的累加 更新每个词的方法很简单是直接加对sum的导数,均摊到每个input中 * 保留词向量的哈希值 是干啥? * X_w代表w词上下文词vector的累加 更新每个词的方法很简单是直接加对sum的导数,均摊到每个input中 Ascent意思是找最大值 * * * * * 带权采样问题 解释略 * * * * * * * GloVe是最优的,那么我们就看看GloVe下的调参 * 虽然图中y轴坐标实在难以分辨 * * * * Negative Sampling Negative Sampling 中的 Negative Sample? 以CBOW为例 已知Context(w) 和 词w 正样本为 词w 负样本为 除去词w之外的所有词 Negative Sampling的依据 负样本太多了 高频词更易被采样 带权采样问题* CBOW + Negative Sampling 约定:上下文Context(w) 和 词w, 优化目标 其中 i.e. 增大正样本概率(前半部分) 减少负样本概率(后半部分) 求导、更新参数略 Skip-gram + Negative Sampling 优化目标 其中 i.e. 同样, 增大正样本概率(前半部分) 减少负样本概率(后半部分) 求导、更新参数略 词向量评价(翻译版) Intrinsic 在一个特定的子任务(后几页)中进行评测 计算迅速 有助于理解相关的系统 不太清楚是否有助于真实任务除非和实际的NLP任务的相关性已经建立起来 Extrinsic 在一个真实任务中进行评测 需要花很长的实际来计算精度 不太清楚是否是这个子系统或者其他子系统引起的问题 如果用这个子系统替换原有的系统后获得精度提升–有效(Winning!) 词向量评价 (Intrinsic - Word Vector Analogies) 通过一些语义或语法类比问题上的余弦相似度距离的表现来评测词向量 问题:如果信息符合但不是线性的怎么办? 词向量评价 (Intrinsic -Semantic) 句法 理论评价 词向量评价 (Intrinsic - Syntactic) 词向量评价 (Intrinsic - Sem. Syn.) 词向量评价 (Sem. Syn. using GloVe) 非对称上下文(仅有左侧的单词)并不是很好 最佳的向量维度:300左右,之后变化比较轻微 对于GloVe向量来说最佳的窗口长度是8 词向量评价 (Sem. Syn. using GloVe) 训练的时间 对于GloVe来说有帮助 Word2vec不一定 词向量评

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档