- 1、本文档共34页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
word2vec分享
word2vec
Tylerwang
2015.4.30
Word2vec是什么
• word2vec是一个将单词转换成向量形式的工具。
通过转换,可以把对文本内容的处理简化为向量
空间中的向量运算,计算出向量空间上的相似度,
来表示文本语义上的相似度。
词向量
• 把自然语言中的一个词表示成一个向量
– One-hot Representation
例如:
• “话筒”表示为[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 ...]
• “麦克”表示为[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 ...]
– 存在两个问题
• 维数灾难
• 词汇鸿沟:任意两个词之间都是孤立的,不能体现词和词之
间的关系
词向量
• Distributional Representation
– 将词表示为:
• 通过训练将每个词映射成K维实数向量,通过词之
间的距离(比如cosine相似度、欧氏距离等)来判
断它们之间的语义相似度。
• 具体表示为如[0.792, −0.177, −0.107, 0.109,
0.542, ...],常见维度几十到几百
– 可解决“词汇鸿沟”问题
• 可以通过计算向量之间的距离(欧式距离、余弦距
离等)来体现词与词的相似性
又叫Word Represention”或Word Embedding
霍夫曼树
霍夫曼编码
词频越高,编码的长度越短,从根节点到相应词的路径越短
语言模型
• 判断一句话是不是正常人说出来的,用数学符
号描述为
– 给定一个字符串w1,w2,...,wt,计算它是自然语言的
p(w , w ,..., w )
概率 1 2 t ,一个很简单的推论是
p (w , w ,..., w ) p (w ) p (w | w ) p (w | w , w ) ...p (w | w ,w ,..., w )
1 2 t 1 2 1 3 1 2 t 1 2 t1
– 例如,有个句子大家,喜欢,吃,苹果
• P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,
喜欢)p(苹果|大家,喜欢,吃)
T
p(s) p(w , w ,..., w ) p(w | Context )
– 简单表示为 1 2 T i i
i1
• 计算p(w | Context ) 问题
i i
神经网络语言模型
神经网络语言模型
• 输入是向量,也会被更新,每次查询C矩阵
• 论文中输入向量间用catenation, word2vec
用sum
• 输入层和输出层之间构建一层传递关系,
可更快传导输入word 的变化
• 可以选择双曲正切或者sigmoid
神经网络语言模型
• N: 词语window大小,当前词前后多少个词
• D: 词向量维度
• H: hidden layer节点数
• V: 词汇表vocabulary大小
• 复杂度:N * D + N * D * H + N *D * V + H
* V
• 第三第四项复杂度最高,word2vec去掉第
三项,优化第四项(用hs或者
您可能关注的文档
最近下载
- 【铸牢中华民族共同体意识】铸牢中华民族共同体意识PPT .pdf VIP
- 小学体育跨学科主题学习教学设计:音乐情境俯姿与跪姿爬行.doc VIP
- 场车安全管理职责、风险管控清单及日管控、周排查、月调度管理制度 .pdf
- 正畸种植支抗稳定性的研究进展.pptx VIP
- 2024-2025学年统编版(2024)-道德与法治小学一年级上册教学设计(表格版) .docx
- 2024大家居材艺趋势白皮书-78页.doc VIP
- 沥青混凝土面层技术交底.pdf VIP
- 八年级数学下册《勾股定理》教学设计(竞赛课).doc VIP
- 国开电大《学前卫生学基础》形考形成性考核一答案.doc
- 正畸治疗中的支抗和支抗控制.pdf VIP
文档评论(0)