- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web图片有哪些信誉好的足球投注网站引擎设计PPT
Web图片有哪些信誉好的足球投注网站引擎设计 ——基于文本的图片信息提取 大纲 图片检索技术简介 我们设计的系统总体结构 图片文字信息提取 无用图片过滤 一些统计规律 结合文本与内容的方法(后期打算) 图片检索技术分类 基于文本 利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。 基于内容 提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。 基于语义 理解可是特征的语义信息,可以利用文字查询可视特征。 基于文本 优点 符合用户查询习惯(关键字查询) 适合复杂语义查询(比如查“奥运会”) 利用已有的技术积累(文本检索) 性能好 缺点 提取的信息不够准确 文字描述不能保证全面性 不能基于内容相似查询 基于内容 优点 可以查询相似图片 对图片来源要求低(不需要额外文字信息) 缺点 技术不成熟 效率低 复杂语义无法表示 基于语义 通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的) 。符合人类理解图片的自然方式。 开始大量的研究,在未来会有很大的发展。 我们的选择——基于文字 理由 目前的大型图片有哪些信誉好的足球投注网站引擎基本上都是以基于文字的检索为主体。 性能良好 已有大量的网页资源可供使用。 开发周期较短。 我们设计的系统的结构 系统工作过程 抓取网页和图片 从网页中提取图片相关的文字信息 利用图片生成缩略图 对提取到的文字信息建倒排索引 提供查询 核心——图片信息提取(Extractor) 信息来源 HTML文档用于组织文字和图片等 通过分析HTML文档找到图片和相关的文字 提取方法 不能确知网页作者组织信息的方法,所以利用启发式规则 将最可能与某图片相关的位置的文字作为图片的文字描述信息 常用提取模式 img标记 从src获取图片来源 从alt获取相关文字信息(注意可能为文件名) 获得width和height,用于以后的过滤 常用提取模式(续) a标记 从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容) 从title获得相关文字信息 从anchor_text获得图片的文字信息(通常最准确) 常用提取模式(续) 网页的标题 图片与所在网页相关,因此和网页的标题相关 提取title下的文字。有时title下还会嵌套标记,需要去除。有时title使用缺省的名字(比如new page或者Untitled Document),需要过滤 常用提取模式(续) 链接到图片所在网页的文本 和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关 需要跨页面的信息提取 常用提取模式(续) 网页的meta标记 也是对网页内容的描述 可以提取其中的keywords和description的值 常用提取模式(续) 图片的URL 图片的URL可能含有相关信息(path和file_name) 判断path和file_name是否为中文,或者为英文单词,是则可能有意义 不考虑站点的domain_name,太泛 常用提取模式(续) 关联的a和img 嵌套 a href=”foo.html”img src=”xxx.jpg”/a 则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息 并列 a href=”foo”anchor_text/a…… a href=”foo”img src=”xxx.jpg”/a 则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息 常用提取模式(续) table结构 组织结果比较多样化 相关的文字和图片放到同一个td中; 相关的文字和图片放在同一个tr下的两个td里; 相关的文字和图片放在两个相邻的tr内; 以某种其他的规律出现在table里 提取时需要判断使用的是哪一种组织方式 常用提取模式(续) 图片周围文字 比较难于界定“周围”的含义。 基于流的方式,图片所在HTML流中位置前后一段固定的距离 常用提取模式(续) 图片周围文字(续) 基于DOM的方式 与图片具有共同最低祖先的文字节点 目前系统中使用的模式 img标记信息 a标记信息 网页标题 图片的URL table结构 图片周围文字(DOM) 信息提取方法 基于DOM的方法 将HTML文档解析为DOM树,遍历所有的节点,利用DOM接口的方法获取相关信息。 优点 实现简单,有开放的DOM解析工具可用(HTMLTidy) 利用部分结构信息,提取信息准确度稍高 缺点 需要解析DOM,效率较低 信息提取方法(续) 基于流的方法 直接通过字符串查找来定位所要提取的信息 优点 只关注几个tag,不需要解析DOM,速度快 缺点 不太注重结构信息,准确性不如DOM方式高 信息提取方法(续) 基于wrapper的方法 利用
文档评论(0)