- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
单词和短语的分布式表示和他们的组合性
文摘
最近推出的Skip-gram模型是一种有效的方法来学习高品质的分布式向量表示,它捕捉了大量num-ber精确的语法和语义词的关系和方法。在本文中我们提出几个扩展,提高质量的向量和训练速度。通过频繁的二次抽样,使我们的学习得到显著加速同时也学更多的定期字表示。我们还描述了一个简单的alterna-tive层次,softmax称为负采样。
词表示有着特定的局限性,他们无法代表习惯用语。例如,“加拿大”和“空气”不能容易地组合以获得“加拿大航空公司,通过这个例子中,我们提出了用于查找文本短语的简单方法,这个便使得学习良好的向量表示和为数百万短语成为可能。
1引言
在向量空间中分布表示的单词可以帮助学习算法更好的实现在自然语言处理任务分组中相似的单词。最早的一个使用字表示的历史可以追溯到1986年,源自于Rumelhart,Hinton和 Williams [13]。这个想法已经被应用到统计语言获得相当大的成功。后续工作包括应用自动语音识别、机器翻译[14] [7]和广泛的自然语言处理的任务[2, 20, 15, 3, 18, 19, 9]。
最近,Mikolov等人引入了一种叫Skip-gram模型,是一种有效的从大量的非结构化的文本数据中学习高质量的向量表示单词的方法。不同于大多数以前使用的神经网络结构学习单词载体,在Skip-gram模型中(见图1)并不涉及稠密矩阵乘法。这使得训练效率极高:一个优化的单价可以实现每天训练超过1000亿人。
这个词表示计算使用神经网络非常有趣, ,因为学到的向量进行明确编码和遵循许多语言规律和模式。有点令人惊讶的是,许多这些模式可以表示成线性的翻译。举例来说, 一个向量计算的结果VEC(“马德里”) - VEC(“西班牙”)+ VEC(“法国”)是不是任何其他文字更贴近VEC(“巴黎”)。
图1:Skip-gram模型架构。培训目标是学习单词向量表示擅长预测附近的单词。
在本文中,我们提出skip-gram模型的几个扩展。我们表明,二次抽样期间可以显著加速训练频繁出现的词汇(约2倍- 10倍),以及提高了频率较低单词表述的准确性。此外,我们提出了一个简单的噪声对比估算的变量(NCE)[4]skip-gram模型导致更快的培训和频繁出现的词汇更好的向量表示,SOFTMAX分层相比于这个更复杂[8]。
受限于词表示他们无法使惯用短语成分个别单词。例如,“波士顿环球报”是一个报纸,所以它不是一个自然的组合的含义“波士顿”和“全球”。 因此,使用向量repre-sent整个短语比Skip-gram模型表达得多。其他技术,主要在的句子通过组合这个词向量,如递归来表示句子2的含义[15],也将受益于使用短语向量代替这个词向量。
从文字扩展为基础,以基于短语的模型比较简单。首先我们确定一个大的采用数据驱动的方法短语号码,然后我们对待短语作为单独的标记。在培训期间。为了评估这句话向量质量,我们开发了一个用于类比同时包含单词和短语推理任务的测试器。从我们的测试中看到一个典型的比喻是对“蒙特利尔”:“蒙特利尔加拿大人”::“多伦多”:“多伦多枫叶”。如果最近表示它会被认为是已经正确回答,以VEC(“蒙特利尔加拿大人”) - VEC(“蒙特利尔”)+VEC(“多伦多”)VEC(“多伦多枫叶”)。
最后,我们描述了跳过-gram模型的另一个有趣的特性。我们发现,简单向量加法往往能产生有意义的结果。例如,VEC(“俄罗斯”)+ VEC(“河”)是接近VEC(“伏尔加河”),和VEC(“德国”)+ VEC(“资本”)接近VEC(“柏林”)。 这个组合性暗示的语言理解非常显而易见可以通过获得使用上的字向量表示基本的数学运算。
2 Skip-gram模型
skip-gram模型的训练目标用字表示是获取在一个句子或文档周围的的用词。更正式地说,由于序列训练单词w1,W2,W3,。 。 。 ,WT,skip-gram模型的目标是最大化的平均数概率。
(1)
其中c是训练上下文(其可以是中心单词重量的函数)的大小。在训练时间为代价的前提下,更多的训练示例并因此较大C结果可导致更高的精度。基本Skip-gram公式定义了p(wt + j | wt)将要使用softmax函数:
(2)
其中,vw和vw是“输入”和“输出”向量表示,W是数在词汇。这种提取的方法是不切实际的,因为计算成本和?logP(WO| WI)是成正比的,这往往是(105-107项)。
2.1 Softmax分层
SOFTMAX的计算效率近似于分层SOFTMAX。 神经网络语言模型最早是由莫兰和Bengio[12]提出。该主要优点是代替在神经网
文档评论(0)