开源智能软件平XPress 项目汇报.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
开源智能软件平XPress 项目汇报

开源智能-XPress 开源智能软件平台XPress 项目汇报 谢欣 2003年12月31日 目录 项目概述 系统 匹配算法 展望 项目概述 名称:“开源智能软件平台” ,Xpress 功能:对FTP资源分类整合,并附加从web上自动提取的的相关信息,为用户提供具有高可用性的WEB形式资源浏览、检索与下载服务。 特点:自动 商业经理:刘菲菲,软工 开发经理:谌贻容,语言所 档案经理:石武光,语言所 项目组长:谢 欣,网络 项目概述:商业计划回顾 本项目以宽带网络服务提供商为服务对象 协助其以低廉的价格对现有下载服务进行大规模扩充,快速提高其商业竞争力为目标。 2003年10月23日录音回放: 系统介绍 实际使用 :7001/XPress 系统结构图 系统重点一:web信息提取 信息提取简介 基于模板(我们的选择) 基于Ontology 基于规则 基于语法 系统重点二:FTP有哪些信誉好的足球投注网站 利用天网文件有哪些信誉好的足球投注网站的技术 爬虫 多线程并行抓取 每个站点一个线程 系统重点三:匹配算法 对每个FTP文件匹配所有的软件资源,找出匹配值最大的一项,当匹配值大于某个预定的权值时,我们就认为匹配成功 不是百分之百正确 为什么不用MD5 在现实实施中不可能 文件大小往往不同 增加匹配成功度:语言版本,版本号 算法的假设前提,对于同种资源,从web上得到的软件和FTP上的文件 在名称上具有一定的相似度 文件大小相差不大 匹配算法一:石氏(石午光)算法 名称+文件大小,各占一定百分比 文件大小 二者大小之差的百分比反比于比较结果 名称 假设前提:FTP文件名中前面的字符比后面的字符更能体现文件的内容 实际做法:前几个字符所占比重较大,越在后面的字符所占比重越小 匹配算法二:刘氏(刘菲菲)算法 前提假设:很多软件同时有中英文名 特点:中英文分别匹配,最大子串 步骤 过滤掉文件大小之差大于阀值的匹配 然后进行名称+文件大小的匹配 对于名称匹配,分别拆分出各自名称的最大中文子串和最大英文子串 若一方无中(英)文子串,则只比较英(中)文子串;否则中英文子串都进行比较,各占一半的权重 比较子串时挑选出最长共同的子串,其占整个字符串的长度之比为匹配值 匹配结果 实际测试 实际查询 :7001/XPress Leapftp 网络蚂蚁 Maze 友情强档 展望:质 提高匹配的准确程度 不同的单词应该有不同的权重,比如: “photoshop”之类的词权重应比较高(区分性较强) “windows”,“ system”之类的权重应比较低 “中文版”,“build”之类的权重应非常低 不手工建立词典,采用分布均匀性公式 展望:质(续) 对每一个可能的词进行计算 北大计算语言所张化瑞的计算公式 计算词频的分布均匀性 (Distributed Consistency, DC) 分布均匀度越高,该词的权重越低 展望:量 增加从web上进行信息提取的来源数量 自动发现软件站点 利用我们的软件信息库和现有的有哪些信誉好的足球投注网站引擎 自动提取此类网站的模板 提取出网站中大量相似页面中的不同内容 自动更新软件信息 基本于软件网站同步更新 谢谢观赏 Ontology A computational entity, a resource containing knowledge about what “concepts” exist in the world and how they relate to one another Components Concepts Domain dependent Context free Context sensitive Domain independent Context free Context sensitive Relationship (relational schema between the concepts) Constraints * * 项目概述:团队成员 Web页面抓取及信息提取 FTP信息抓取 软件信息匹配 用户接口 Web页面抓取及信息提取 FTP信息抓取 软件信息匹配 用户接口 2869605 2869248 Maze-1.02-win.exe 天网 maze 网络文件系统 1.02 beta 1215545 1220608 IpSniper.zip qq狙击手-ipsniper 3.2 257926 272384 IEProSetup1.1.zip internet设置工具-ieprosetup 1.2.2 简体版 44032 45056 Duba_Sobig.exe 金山巨无霸(sobig)专杀工具 2001 516608 486400 qqav.exe 腾讯qq自动发消息专杀工具qqav 3.3 488208 486400

文档评论(0)

l215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档