word2vec分享.pdf

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
word2vec分享

word2vec Tylerwang 2015.4.30 Word2vec是什么 • word2vec是一个将单词转换成向量形式的工具。 通过转换,可以把对文本内容的处理简化为向量 空间中的向量运算,计算出向量空间上的相似度, 来表示文本语义上的相似度。 词向量 • 把自然语言中的一个词表示成一个向量 – One-hot Representation 例如: • “话筒”表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...] • “麦克”表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...] – 存在两个问题 • 维数灾难 • 词汇鸿沟:任意两个词之间都是孤立的,不能体现词和词之 间的关系 词向量 • Distributional Representation – 将词表示为: • 通过训练将每个词映射成K维实数向量,通过词之 间的距离(比如cosine相似度、欧氏距离等)来判 断它们之间的语义相似度。 • 具体表示为如[0.792, −0.177, −0.107, 0.109, 0.542, ...],常见维度几十到几百 – 可解决“词汇鸿沟”问题 • 可以通过计算向量之间的距离(欧式距离、余弦距 离等)来体现词与词的相似性 又叫Word Represention”或Word Embedding 霍夫曼树 霍夫曼编码 词频越高,编码的长度越短,从根节点到相应词的路径越短 语言模型 • 判断一句话是不是正常人说出来的,用数学符 号描述为 – 给定一个字符串w1,w2,...,wt,计算它是自然语言的 p(w , w ,..., w ) 概率 1 2 t ,一个很简单的推论是 p (w , w ,..., w ) p (w ) p (w | w ) p (w | w , w ) ...p (w | w ,w ,..., w ) 1 2 t 1 2 1 3 1 2 t 1 2 t1 – 例如,有个句子大家,喜欢,吃,苹果 • P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家, 喜欢)p(苹果|大家,喜欢,吃) T p(s)  p(w , w ,..., w ) p(w | Context ) – 简单表示为 1 2 T i i i1 • 计算p(w | Context ) 问题 i i 神经网络语言模型 神经网络语言模型 • 输入是向量,也会被更新,每次查询C矩阵 • 论文中输入向量间用catenation, word2vec 用sum • 输入层和输出层之间构建一层传递关系, 可更快传导输入word 的变化 • 可以选择双曲正切或者sigmoid 神经网络语言模型 • N: 词语window大小,当前词前后多少个词 • D: 词向量维度 • H: hidden layer节点数 • V: 词汇表vocabulary大小 • 复杂度:N * D + N * D * H + N *D * V + H * V • 第三第四项复杂度最高,word2vec去掉第 三项,优化第四项(用hs或者

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档