- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
031|经典有哪些信誉好的足球投注网站核心算法:TF-IDF及其变种
2017-11-13洪亮劼来自北京
《AI技术内参》
从本周开始我们进入人工智能核心技术模块,本周我会集中讲解经典的有哪些信誉好的足球投注网站核心算法,今天先
来介绍TF-IDF算法。
在信息检索(InformationRetrieval)、文本挖掘(TextMining)以及自然语言处理
(NaturalLanguageProcessing)领域,TF-IDF算法都可以说是鼎鼎有名。虽然在这些领
域中,目前也出现了不少以深度学习为基础的新的文本表达和算分(Weighting)方法,但是
TF-IDF作为一个最基础的方法,依然在很多应用中发挥着不可替代的作用。
了解和掌握TF-IDF算法对初学者大有裨益,能够帮助初学者更快地理解其它更加深入、复杂
的文本挖掘算法和模型。今天我就来谈谈TF-IDF的历史、算法本身的细节以及基于TF-IDF
的几个变种算法。
TF-IDF的历史
把查询关键字(Query)和文档(Document)都转换成“向量”,并且尝试用线性代数等数
学工具来解决信息检索问题,这样的努力至少可以追溯到20世纪70年代。
1971年,美国康奈尔大学教授杰拉德·索尔顿(GerardSalton)发表了《SMART检索系
统:自动文档处理实验》(TheSMARTRetrievalSystem—ExperimentsinAutomatic
DocumentProcessing)一文,文中首次提到了把查询关键字和文档都转换成“向量”,并
且给这些向量中的元素赋予不同的值。这篇论文中描述的SMART检索系统,特别是其中对
TF-IDF及其变种的描述成了后续很多工业级系统的重要参考。
1972年,英国的计算机科学家卡伦·琼斯(KarenSpärckJones)在《从统计的观点看词的特
殊性及其在文档检索中的应用》(AStatisticalInterpretationofTermSpecificityandIts
ApplicationinRetrieval)一文中第一次详细地阐述了IDF的应用。其后卡伦又在《检索目
录中的词赋值权重》(IndexTermWeighting)一文中对TF和IDF的结合进行了论述。可
以说,卡伦是第一位从理论上对TF-IDF进行完整论证的计算机科学家,因此后世也有很多人
把TF-IDF的发明归结于卡伦。
杰拉德本人被认为是“信息检索之父”。他1927年出生于德国的纽伦堡,并与1950年和
1952年先后从纽约的布鲁克林学院获得数学学士和硕士学位,1958年从哈佛大学获得应用
数学博士学位,之后来到康奈尔大学参与组建计算机系。为了致敬杰拉德本人对现代信息检索
技术的卓越贡献,现在,美国计算机协会ACM(AssociationofComputingMachinery)
每三年颁发一次“杰拉德·索尔顿奖”(GerardSaltonAward),用于表彰对信息检索技术有
突出贡献的研究人员。卡伦·琼斯在1988年获得了第二届“杰拉德·索尔顿奖”的殊荣。
TF-IDF算法详解
要理解TF-IDF算法,第一个步骤是理解TF-IDF的应用背景。TF-IDF来源于一个最经典、也
是最古老的信息检索模型,即“向量空间模型”(VectorSpaceModel)。
简单来说,向量空间模型就是希望把查询关键字和文档都表达成向量,然后利用向量之间的运
算来进一步表达向量间的关系。比如,一个比较常用的运算就是计算查询关键字所对应的向量
和文档所对应的向量之间的“相关度”。
因为有了向量的表达,相关度往往可以用向量在某种意义上的“相似度”来进行近似,比如余
弦相似性(CosineSimilarity)或者是点积(DotProduct)。这样,相关度就可以用一个值
来进行表达。不管是余弦相似度还是点积都能够从线性代数或者几何的角度来解释计算的合理
性。
在最基本的向量空间模型的表达中,查询关键字或是文档的向量都有V维度。这里的V是整
个词汇表(Vocabulary)的总长度。比如,我们如果有1万个常用的英文单词,那么这个V
的取值就是1万,而查询关键字和每个文档的向量都是一个1万维的向量。对于这个向量中
的每一个维度,都表示英文中的一个单词,没有重复。
你可以看到,在这样的情况下,如果当前的词出现在这个向量所对应的文档或者关键字里,就
用1来表达;如果这个词没出现,就用0来表达
您可能关注的文档
- 出口商品技术指南-木制品(1).pdf
- 002-精读2017年KDD最佳研究论文【萌萌家】(1).pdf
- 003-精读2017年KDD最佳应用数据科学论文【萌萌家】.pdf
- 007-精读2017年ICCV最佳研究论文【萌萌家】.pdf
- 013-WSDM2018论文精读:看谷歌团队如何做位置偏差估计【萌萌家】.pdf
- 014-WSDM2018论文精读:看京东团队如何挖掘商品的替代信息和互补信息【萌萌家】.pdf
- 019-SIGIR2018论文精读:偏差和“流行度”之间的关系【萌萌家】.pdf
- 025-ICML2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉【萌萌家】.pdf
- 026-ICML2018论文精读:聊一聊机器学习算法的“公平性”问题【萌萌家】.pdf
- 027-ICML2018论文精读:优化目标函数的时候,有可能放大了“不公平”?【萌萌家】.pdf
文档评论(0)