- 1、本文档共40页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[精品]Web图片有哪些信誉好的足球投注网站引擎设计
Web图片有哪些信誉好的足球投注网站引擎设计 ——基于文本的图片信息提取 大纲 图片检索技术简介 我们设计的系统总体结构 图片文字信息提取 无用图片过滤 一些统计规律 结合文本与内容的方法(后期打算) 图片检索技术分类 基于文本 利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。 基于内容 提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。 基于语义 理解可是特征的语义信息,可以利用文字查询可视特征。 基于文本 优点 符合用户查询习惯(关键字查询) 适合复杂语义查询(比如查“奥运会”) 利用已有的技术积累(文本检索) 性能好 缺点 提取的信息不够准确 文字描述不能保证全面性 不能基于内容相似查询 基于内容 优点 可以查询相似图片 对图片来源要求低(不需要额外文字信息) 缺点 技术不成熟 效率低 复杂语义无法表示 基于语义 通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的) 。符合人类理解图片的自然方式。 开始大量的研究,在未来会有很大的发展。 我们的选择——基于文字 理由 目前的大型图片有哪些信誉好的足球投注网站引擎基本上都是以基于文字的检索为主体。 性能良好 已有大量的网页资源可供使用。 开发周期较短。 我们设计的系统的结构 系统工作过程 抓取网页和图片 从网页中提取图片相关的文字信息 利用图片生成缩略图 对提取到的文字信息建倒排索引 提供查询 核心——图片信息提取(Extractor) 信息来源 HTML文档用于组织文字和图片等 通过分析HTML文档找到图片和相关的文字 提取方法 不能确知网页作者组织信息的方法,所以利用启发式规则 将最可能与某图片相关的位置的文字作为图片的文字描述信息 常用提取模式 img标记 从src获取图片来源 从alt获取相关文字信息(注意可能为文件名) 获得width和height,用于以后的过滤 常用提取模式(续) a标记 从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容) 从title获得相关文字信息 从anchor_text获得图片的文字信息(通常最准确) 常用提取模式(续) 网页的标题 图片与所在网页相关,因此和网页的标题相关 提取title下的文字。有时title下还会嵌套标记,需要去除。有时title使用缺省的名字(比如new page或者Untitled Document),需要过滤 常用提取模式(续) 链接到图片所在网页的文本 和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关 需要跨页面的信息提取 常用提取模式(续) 网页的meta标记 也是对网页内容的描述 可以提取其中的keywords和description的值 常用提取模式(续) 图片的URL 图片的URL可能含有相关信息(path和file_name) 判断path和file_name是否为中文,或者为英文单词,是则可能有意义 不考虑站点的domain_name,太泛 常用提取模式(续) 关联的a和img 嵌套 a href=”foo.html”img src=”xxx.jpg”/a 则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息 并列 a href=”foo”anchor_text/a…… a href=”foo”img src=”xxx.jpg”/a 则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息 常用提取模式(续) table结构 组织结果比较多样化 相关的文字和图片放到同一个td中; 相关的文字和图片放在同一个tr下的两个td里; 相关的文字和图片放在两个相邻的tr内; 以某种其他的规律出现在table里 提取时需要判断使用的是哪一种组织方式 常用提取模式(续) 图片周围文字 比较难于界定“周围”的含义。 基于流的方式,图片所在HTML流中位置前后一段固定的距离 常用提取模式(续) 图片周围文字(续) 基于DOM的方式 与图片具有共同最低祖先的文字节点 目前系统中使用的模式 img标记信息 a标记信息 网页标题 图片的URL table结构 图片周围文字(DOM) 信息提取方法 基于DOM的方法 将HTML文档解析为DOM树,遍历所有的节点,利用DOM接口的方法获取相关信息。 优点 实现简单,有开放的DOM解析工具可用(HTMLTidy) 利用部分结构信息,提取信息准确度稍高 缺点 需要解析DOM,效率较低 信息提取方法(续) 基于流的方法 直接通过字符串查找来定位所要提取的信息 优点 只关注几个tag,不需要解析DOM,速度快 缺点 不太注重结构信息,准确性不如DOM方式高 信息提取方法(续) 基于wrapper的方法 利用
您可能关注的文档
- [新版]南昌大学医学影像精品课程之肺部炎症.ppt
- [新版]汽车制作技术.ppt
- [新版]构建有效的高中化学教室ppt.ppt
- [新版]爱心永存.ppt
- [新版]梅毒.ppt
- [新版]经络保健与皮肤安康.ppt
- [新版]音乐与美术.ppt
- [新版]幼儿卫生保健课件.ppt
- [新版]高一英语各单位常识点总结.ppt
- [明考纲知考情] 阅读是获取知识和信息的重要途径之一。在英语高考 ....ppt
- 2025年度私立医院医院感染控制与预防措施合同.docx
- 2025年度私立医院护士专业能力提升聘用合同.docx
- 2025年度私立医院护士跨学科合作聘用合同.docx
- 2025年度私立医院护士护理管理培训聘用合同.docx
- 2025年度私立医院护士护理设备操作培训聘用合同.docx
- 精品解析:广东省广州市第八十九中学2024-2025学年高一上学期期中考试语文试题(解析版).docx
- 2025年度私立学校后勤保障服务及安全管理合同.docx
- 安全管理程序课件PPT.pptx
- 2025年度私立医院护士远程医疗项目聘用合同.docx
- 2025年度私立学校基础设施改造工程前期物业管理服务合同.docx
最近下载
- 2025年山东外事职业大学单招综合素质考试题库及答案解析.docx
- 计算机网络信息安全必威体育官网网址制度(暂行).doc VIP
- 国际消费中心城市建设年度专题研究报告(2023).pdf
- 医院信息化监理与信息化咨询服务方案.docx VIP
- 信息化运维服务服务质量保障方案.docx
- 2025年新疆机场集团有限责任公司人员招聘笔试备考试题及答案解析.docx
- 2024年市财政局副局长民主生活会对照检查发言材料2篇范文.docx VIP
- 2024-2025年新高考生物专题十九免疫调节-10年高考真题.pdf
- 新人教版三年级下册数学第一单元《练习二》教学课件.pptx
- 信息化项目监理规划.docx VIP
文档评论(0)