- 1、本文档共64页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
web信息内容其特征提取方法研究
摘要
随着Internet的迅速发展,Web信息已经成为人们生活和工作中重要的信息来
源。然而Web信息的滥用也成为互联网领域的一大难题,比如,不法分子通过BBS、
专栏、电子邮件等进行反动宣传、诈骗、恐怖威胁、传播色情、病毒等网络犯罪现象
日益严重;远程教育中,抄袭作业的现象为教学管理带来了严峻的挑战。这就需要找
出这些Web信息的发布源并予以处置。然而这些Web信息的发布者总是试图隐藏其真
实身份以逃避侦察,所以通过发布信息者的名称、IP地址、邮件头等信息找出Web
信息发布源是一件很困难的事情。如何同一认定Web信息发布源已经成为当前亟需解
决的问题。
在Web信息发布源同一认定的研究中,Web信息内容及其特征提取是作者身份识
别过程中的基础问题。因为任何算法和技术都是以特征为基础来进行分类或判断的,
特征提取的正确与否、质量高低直接影响到分类识别的精度。而内容提取的准确与否
在一定程度上也影响了特征提取的效率。所以本文的研究目的就是以中文Web信息文
本为研究对象,分析研究Web信息的内容及其特征提取方法,为Web信息发布源同一
认定的研究奠定基础,最终达到识别Web信息作者真实身份的目的,为计算机取证提
供依据,追究Web信息作者的责任,具有重要的应用价值和现实意义。
迄今为止,大部分相关研究主要集中在文本分类,但是由于Web信息文本与普通
文本在形式和语言表达及文本篇幅长短上的差异,文本分类的特征不太适合Web信息
特征的选择。国外针对作者同一认定的研究已有初步的研究成果报道,但是由于中文
和外文的差异,其理论和方法对于中文Web信息不太适合。国内针对中文电子邮件作
者的身份特征研究已有开展,但是邮件的特征还不能完全应用于其它类型的Web信
息,并且针对各类形式Web信息特征的提取,还没有一个统一的解决方案。所以在这
一领域还存在许多需要解决的问题。
本文首先对Web信息发布源同一认定研究领域的国内外研究现状进行了论述,探
讨了现有的研究技术和方法;在详细分析Web信息格式及内容的基础上,根据HTML
页面与电子邮件在格式结构上的差异,分别探讨了HTML页面和电子邮件的内容提取
技术。对Web页面主题文本的提取,邮件信息提取,邮件内容解码等方法进行了研究;
给出了利用结点主题相关性判定Web页面主题内容的方法,以及过滤邮件中回复行和
广告行内容的方法。
针对中文Web信息,在分析和比较了Web信息文本与普通文本区别的基础上,借
鉴已有研究成果,给出了可用于中文Web信息的特征模型,详细地分析了中文Web
信息作者的写作特征,包括语言特征、词汇特征、结构特征以及格式特征等,并对各
类特征的提取方法进行了研究;针对语言特征中潜在特征词的提取问题,给出了利用
关联规则提取文本中的潜在特征词的方法,在一定程度上克服了分词程序的缺陷;在
文本分类知识的基础上,借鉴已有研究成果,给出了中文Web信息特征表示方法、特
征选择方法和特征权重的计算模型,明确各项特征在Web信息发布源同一认定中的重
要性以及相互关系。
为了验证所给出的模型和方法的正确性和可行性,本研究对HTML页面内容提取,
电子邮件内容提取,以及Web信息特征提取方法进行了实验。实验结果初步验证了本
研究所给出的算法和方法的可行性,从而为后续的研究工作奠定了基础。
关键词: Web信息;同一认定;内容提取;写作特征:特征提取;特征选择
ResearchontheExtractionMethodof胍bContentandItsFeatures
Author:HUYan
GuifaZhou
Guihong
Supervisors:Teng
Technology
Major:ComputerApplied
AbStract
Withthe ofIntemet.Webinformationhasbecomeoneofthe
rapiddevelopment
您可能关注的文档
- p2p网络资源位模型及其关键技术研究.pdf
- p2p视频点播统中的邻居发现算法.pdf
- p2p视频点播媒体内容分发策略研究.pdf
- p2p网络通讯统中的语音通讯技术.pdf
- p2p覆盖网流体交互技术研究与设计.pdf
- paramodl系统模型验证与代码框架生成.pdf
- pda安全管理件的若干关键技术研究.pdf
- pdf文档中数公式检测方法研究.pdf
- pdf文档的生与原始性验证研究.pdf
- pki技术在城应急联动系统中的应用研究.pdf
- 2024年度党员干部专题组织生活会个人新四各方面对照检查材料3篇合集.docx
- 2023年民主生活会领导干部个人发言3篇范文.docx
- 第二批主题教育专题组织生活会普通党员个人对照检查材料合集2篇.docx
- 学习以案促改党纪教育专题组织生活会个人对照检查材料两篇.docx
- 党员领导干部2023年民主生活会“六个方面”个人对照检查材料3篇范文.docx
- 党员干部“严守纪律规矩 加强作风建设”组织生活会个人对照检查材料集合篇.docx
- 2024班子防治统计造假专题民主生活会对照检查材料两篇范文.docx
- 2024公司机关党支部教育专题组织生活会个人对照检查材料两篇.docx
- 2023年度专题民主生活会个人对照新6个对照方面检查材料3篇文稿.docx
- 2024第二批主题教育专题组织生活会对照检查材料2篇文本.docx
文档评论(0)