深度学习word2vec笔记之算法篇.pdfVIP

下载本文档

15
0
约2.74万字
约 23页
2018-01-08 发布于浙江
举报
版权申诉

深度学习word2vec笔记之算法篇.pdf

1、本文档共23页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习 word2vec 笔记之算法篇在看word2vec 的资料的时候，经常会被叫去看那几篇论文，而那几篇论文也没有系统地说明word2vec 的具体原理和算法，这样看资料就没有得到应有的效果。为了节省看无用资料的时间，就整理了一个笔记，希望能帮助各位尽快理解word2vec 的基本原理，避免浪费时间。当然如果已经了解了，就随便看看得了。一． CBOW 加层次的网络结构与使用说明 Word2vec 总共有两种类型，每种类型有两个策略，总共4 种。这里先说最常用的一种。这种的网络结构如下图。 Wi-c Wi-c+1 …… Wi+c-1 Wi+c 累加起来 Wneu1 与下面的二叉树的每一个非叶节点相连接 Wsyn1 Wsyn1 Wsyn1 Wsyn1 Wsyn1 Wsyn1 W …… W W Wsyn1 …… W W 其中第一层，也就是最上面的那一层可以称为输入层。输入的是若干个词的词向量（词向量的意思就是把一个词表示成一个向量的形式表达，后面会介绍）。中间那个层可以成为隐层，是输入的若干个词向量的累加和，注意是向量的累加和，结果是一个向量。第三层是方框里面的那个二叉树，可以称之为输出层，隐层的那个节点要跟输出层的那个二叉树的所有非叶节点链接的，线太多画不过来了。第三层的这个二叉树是一个霍夫曼树，每个非叶节点也是一个向量，但是这个向量不代表某个词，代表某一类别的词；每个叶子节点代表一个词向量，为了简单只用一个 w 表示，没有下标。另外要注意的是，输入的几个词向量其实跟这个霍夫曼树中的某几个叶子节点是一样的，当然输入的那几个词跟它们最终输出的到的那个词未必是同一个词，而且基本不会是同一个词，只是这几个词跟输出的那个词往往有语义上的关系。还有要注意的是，这个霍夫曼树的所有叶子节点就代表了语料库里面的所有词，而且是每个叶子节点对应一个词，不重复。这个网络结构的功能是为了完成一个的事情——判断一句话是否是自然语言。怎么判断呢？使用的是概率，就是计算一下这句话的“一列词的组合”的概率的连乘（联合概率）是多少，如果比较低，那么就可以认为不是一句自然语言，如果概率高，就是一句正常的话。这个其实也是语言模型的目标。前面说的“一列词的组合”其实包括了一个词跟它的上下文的联合起来的概率，一种普通的情况就是每一个词跟它前面所有的词的组合的概率的连乘，这个后面介绍。对于上面的那个网络结构来说，网络训练完成后，假如给定一句话 s ，这句话由词 w1,w2,w3, …,wT 组成，就可以利用计算这句话是自然语言的概率了，计算的公式是下面的公式 p s = p , , ⋯ = ( |) 其中的Context 表示的是该词的上下文，也就是这个词的前面和后面各若干个词，这个 “若干”（后面简称c ）一般是随机的，也就是一般会从 1 到 5 之间的一个随机数；每个 ( |)代表的意义是前后的c 个词分别是那几个的情况下，出现该词的概率。举个例子就是：“大家喜欢吃好吃的苹果”这句话总共6 个词，假设对“吃”这个词来说c