网站大量收购独家精品文档,联系QQ:2885784924

web信息内容其特征提取方法研究.pdf

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web信息内容其特征提取方法研究

摘要 随着Internet的迅速发展,Web信息已经成为人们生活和工作中重要的信息来 源。然而Web信息的滥用也成为互联网领域的一大难题,比如,不法分子通过BBS、 专栏、电子邮件等进行反动宣传、诈骗、恐怖威胁、传播色情、病毒等网络犯罪现象 日益严重;远程教育中,抄袭作业的现象为教学管理带来了严峻的挑战。这就需要找 出这些Web信息的发布源并予以处置。然而这些Web信息的发布者总是试图隐藏其真 实身份以逃避侦察,所以通过发布信息者的名称、IP地址、邮件头等信息找出Web 信息发布源是一件很困难的事情。如何同一认定Web信息发布源已经成为当前亟需解 决的问题。 在Web信息发布源同一认定的研究中,Web信息内容及其特征提取是作者身份识 别过程中的基础问题。因为任何算法和技术都是以特征为基础来进行分类或判断的, 特征提取的正确与否、质量高低直接影响到分类识别的精度。而内容提取的准确与否 在一定程度上也影响了特征提取的效率。所以本文的研究目的就是以中文Web信息文 本为研究对象,分析研究Web信息的内容及其特征提取方法,为Web信息发布源同一 认定的研究奠定基础,最终达到识别Web信息作者真实身份的目的,为计算机取证提 供依据,追究Web信息作者的责任,具有重要的应用价值和现实意义。 迄今为止,大部分相关研究主要集中在文本分类,但是由于Web信息文本与普通 文本在形式和语言表达及文本篇幅长短上的差异,文本分类的特征不太适合Web信息 特征的选择。国外针对作者同一认定的研究已有初步的研究成果报道,但是由于中文 和外文的差异,其理论和方法对于中文Web信息不太适合。国内针对中文电子邮件作 者的身份特征研究已有开展,但是邮件的特征还不能完全应用于其它类型的Web信 息,并且针对各类形式Web信息特征的提取,还没有一个统一的解决方案。所以在这 一领域还存在许多需要解决的问题。 本文首先对Web信息发布源同一认定研究领域的国内外研究现状进行了论述,探 讨了现有的研究技术和方法;在详细分析Web信息格式及内容的基础上,根据HTML 页面与电子邮件在格式结构上的差异,分别探讨了HTML页面和电子邮件的内容提取 技术。对Web页面主题文本的提取,邮件信息提取,邮件内容解码等方法进行了研究; 给出了利用结点主题相关性判定Web页面主题内容的方法,以及过滤邮件中回复行和 广告行内容的方法。 针对中文Web信息,在分析和比较了Web信息文本与普通文本区别的基础上,借 鉴已有研究成果,给出了可用于中文Web信息的特征模型,详细地分析了中文Web 信息作者的写作特征,包括语言特征、词汇特征、结构特征以及格式特征等,并对各 类特征的提取方法进行了研究;针对语言特征中潜在特征词的提取问题,给出了利用 关联规则提取文本中的潜在特征词的方法,在一定程度上克服了分词程序的缺陷;在 文本分类知识的基础上,借鉴已有研究成果,给出了中文Web信息特征表示方法、特 征选择方法和特征权重的计算模型,明确各项特征在Web信息发布源同一认定中的重 要性以及相互关系。 为了验证所给出的模型和方法的正确性和可行性,本研究对HTML页面内容提取, 电子邮件内容提取,以及Web信息特征提取方法进行了实验。实验结果初步验证了本 研究所给出的算法和方法的可行性,从而为后续的研究工作奠定了基础。 关键词: Web信息;同一认定;内容提取;写作特征:特征提取;特征选择 ResearchontheExtractionMethodof胍bContentandItsFeatures Author:HUYan GuifaZhou Guihong Supervisors:Teng Technology Major:ComputerApplied AbStract Withthe ofIntemet.Webinformationhasbecomeoneofthe rapiddevelopment

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档