word2vec分享.pdf

下载文档 降价啦

20
0
约1.24万字
约 34页
2017-10-05 发布于湖北
举报
版权申诉
保障服务

word2vec分享.pdf

1、本文档共34页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

word2vec分享

word2vec Tylerwang 2015.4.30 Word2vec是什么 • word2vec是一个将单词转换成向量形式的工具。通过转换，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。词向量 • 把自然语言中的一个词表示成一个向量 – One-hot Representation 例如： • “话筒”表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...] • “麦克”表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...] – 存在两个问题 • 维数灾难 • 词汇鸿沟：任意两个词之间都是孤立的，不能体现词和词之间的关系词向量 • Distributional Representation – 将词表示为： • 通过训练将每个词映射成K维实数向量，通过词之间的距离（比如cosine相似度、欧氏距离等）来判断它们之间的语义相似度。 • 具体表示为如[0.792, −0.177, −0.107, 0.109, 0.542, ...]，常见维度几十到几百 – 可解决“词汇鸿沟”问题 • 可以通过计算向量之间的距离（欧式距离、余弦距离等）来体现词与词的相似性又叫Word Represention”或Word Embedding 霍夫曼树霍夫曼编码词频越高，编码的长度越短，从根节点到相应词的路径越短语言模型 • 判断一句话是不是正常人说出来的，用数学符号描述为 – 给定一个字符串w1,w2,...,wt,计算它是自然语言的 p(w , w ,..., w ) 概率 1 2 t ，一个很简单的推论是 p (w , w ,..., w ) p (w ) p (w | w ) p (w | w , w ) ...p (w | w ,w ,..., w ) 1 2 t 1 2 1 3 1 2 t 1 2 t1 – 例如，有个句子大家,喜欢,吃,苹果 • P(大家，喜欢，吃，苹果)=p(大家)p(喜欢|大家)p(吃|大家, 喜欢)p(苹果|大家,喜欢,吃) T p(s)  p(w , w ,..., w ) p(w | Context ) – 简单表示为 1 2 T i i i1 • 计算p(w | Context ) 问题 i i 神经网络语言模型神经网络语言模型 • 输入是向量，也会被更新，每次查询C矩阵 • 论文中输入向量间用catenation, word2vec 用sum • 输入层和输出层之间构建一层传递关系，可更快传导输入word 的变化 • 可以选择双曲正切或者sigmoid 神经网络语言模型 • N: 词语window大小，当前词前后多少个词 • D: 词向量维度 • H: hidden layer节点数 • V: 词汇表vocabulary大小 • 复杂度：N * D + N * D * H + N *D * V + H * V • 第三第四项复杂度最高，word2vec去掉第三项，优化第四项(用hs或者