对象级垂直有哪些信誉好的足球投注网站课件.pptxVIP

下载本文档

2
0
约3.91千字
约 27页
2017-06-10 发布于河南
举报
版权申诉

对象级垂直有哪些信誉好的足球投注网站课件.pptx

1、本文档共27页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

对象级垂直有哪些信誉好的足球投注网站传统有哪些信誉好的足球投注网站引擎页面级的排序和检索只抽取网页的关键词信息核心技术——信息检索易于使用有哪些信誉好的足球投注网站结果多而杂查询能力有限为什么需要对象级垂直有哪些信誉好的足球投注网站？网页中包含丰富的现实世界对象信息用户需要更准确的信息查询用户感兴趣的是特定对象而非网页普通页面级有哪些信誉好的足球投注网站包含太多无用信息，筛选耗费时间，因此需要对象级垂直有哪些信誉好的足球投注网站进行特定的对象有哪些信誉好的足球投注网站什么是对象级垂直有哪些信誉好的足球投注网站？对象级垂直有哪些信誉好的足球投注网站，就是以对象为检索单位，通过扒取网页中的对象信息、在结构化数据库中集成、提供给用户更加强大的查询功能、返回符合用户特定需要的结果、查询更加准确的新一代网络有哪些信誉好的足球投注网站。对象级有哪些信誉好的足球投注网站VS页面级有哪些信誉好的足球投注网站页面级有哪些信誉好的足球投注网站对象级有哪些信誉好的足球投注网站技术信息检索；以网页为检索单位数据库；机器学习；以对象为检索单位优势易于编写; 易于使用查询能力强大；直接回答；答案汇总缺点查询能力有限从哪里获得对象，怎样获得对象？对象级垂直有哪些信誉好的足球投注网站产品 Libra Academic Search () 对象级垂直有哪些信誉好的足球投注网站产品 Windows Live Product Search () 对象级垂直有哪些信誉好的足球投注网站需求分析可靠性：高质量的结构化数据对生成直接和汇总的查询结果是必要的完整性：数据用来提供值得信赖的查询结果需要尽可能的完整排名精度：一个查询有着数十亿的潜在结果，因此最优排名机制是定位有关对象的信息的关键度。可扩展性：对象级垂直有哪些信誉好的足球投注网站引擎应包括垂直领域内的所有网络上和本地数据库中的信息，对象仓库可能是巨大的，因此需要结合大型数据处理技术，使结构化数据检索具有可扩展性。系统体系结构与核心技术系统体系结构与核心技术抓取器和分类器（Crawler and Classifier）：负责自动收集所有包含特定垂直领域对象信息的网页/文件，被抓取的网页/文件将被送到相应的对象抽取器抽取结构化对象信息并建立对象仓库。对象抽取器（Object Extractor）：负责从含有对象信息的网页中抽取与所给定类型的对象有关的元数据。对象聚合器（Object Aggregator）：每个抽取的web对象需要被映射到一个现实世界的对象，并存储到Web的数据仓库。这样做，对象聚合器需要集成相同对象的信息并消除不同对象间的分歧。系统体系结构与核心技术对象级排名和分析（Object-level Ranking and Analysis）：信息抽取和集成后，构建web对象之间的关系图，通过执行这个对象关系图的链接分析，我们可以计算网络对象的重要性，或者发现传统网络图中无法获得的其他有趣的知识或模式。抓取器用节点表示对象，边表示对象之间的关系，那么一个垂直领域的对象信息就构成了一个对象关系图。利用对象关系图来指导扒取算法。例如学术论文有哪些信誉好的足球投注网站：节点：论文、作者、会议/期刊关系：引用、撰写、发表抓取器的最终目标是切实有效地搜集相关网页，并且完成节点、边以及节点属性值尽可能多的对象关系图。分类器与抓取器结合使用，为了保证抓取效率，分类器需要速度很快。可以使用一些启发式算法来去掉不相关页面，例如：在产品页面分类器中，可以使用价格标识符（例如美元符号$）来有效去除大部分的非产品页面。对象抽取器由于网页是基于许多不同的模板而设计的，因此如何从这些网页中抽取信息是一个难点。一种解决方案是先区分不同的模板，根据每种模板设计抽取器。这被称为template-dependent（模板无关）的方法。但这种方法是不切实际的，因为很难判断一个网页对应的是什么模板，并且难以维护很多个面向不同模板的抽取器。对象抽取器 MSRA研究发现网页中有很多与模板无关的特征：（1）一个网页中的对象信息通常组合在一起成为一个对象块，如图4所示。使用现有的网页分割和数据记录抽取技术，可以自动检测对象块，这些对象块可以进一步分割到原子层的抽取实体，称为对象元素。每个对象元素提供有关web对象的单一属性的部分信息。对象抽取器（2）不同网站相同类型的web对象之间存在很强的顺序性，MSRA对两类web对象进行了研究，分别是product pages和researchers’ homepages。该表说明了web对象之间的顺序性，比如一个产品的name一定在产品的description之前。对象抽取器对同类型的对象采用与模板无关的元数据抽取技术，具体来说就是扩展线性链条件随机场（CRFs），它利用了顺序特性的优点。CRFs是无向图模型的一种形式，它采用了链式无向图结构计算给定观察值条件下输出状态的条件概率。（1）2D CRF模型（2）HCRF模型对象聚合器在信息集成中有2个子问题：（1）一个对象由于不一致的格式、拼写错误等产生多个不一致的