- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目录
引言
12
系统的结构
22
网页信息采集及数据预处理模块设计说明
33
候选话题发现模块设计说明
46
话题能量计算模块设计说明
59
热点话题排序模块设计说明
611
详细设计说明书
1引言
1.1编写目的
a.定义系统总体开发过程,作为开发人员项目开发的基础;
b.撰写此文档的目的在于让开发人员明确开发过程,各部分接口及数据传递过程;
c.作为软件总体测试和项目验收的依据;
1.2背景
a.待开发软件系统的名称:BBS热点话题发现系统
b.本项目的用户:网站访问者
1.3定义
a.BBS话题:BBS话题是由一个或者多个讨论类似内容的BBS主题集合
1.4参考资料
a.项目需求分析报告
2系统的结构
如图2-1为BBS热点话题发现系统的框架图:
Web数据库
网页信息采集及数据预处理热点话题发现及热度排序
文本特对主题
网页网页分词,热点话
征提取进行增话题能
数据文本去除停题排序
及文本量单边量计算
采集解析用词及显示
表示聚类
2-1BBS热点话题发现系统的框架
3网页信息采集及数据预处理模块设计说明
3.1程序描述
网页信息采集及数据预处理子系统主要分为:网页数据采集、网页文本解析、网页文本
分词及去除停用词四部分。
3.2功能
如下3-1为网页信息采集及数据预处理子系统的IPO图:
1.获取web页面数据;1.将帖子内容存储到post
用户选择BBS站
2.web文本解析;表中;
点,系统获取
3.文本分词;2.将过滤后的分词结果存
初始URL
4.分词结果过滤入到word表中
输入处理输出
3-1网页信息采集及数据预处理子系统的IPO
3.3性能
本模块采用多线程的方式,同时对数据进行解析、分词、过滤的操作,大大提高了运行
速度,使得系统可以快速的处理大量数据;
3.4流程逻辑
开始
输入初始URL及
结束点
您可能关注的文档
- 电路实验报告 戴维南定理和诺顿定理的验证.pdf
- 电锅炉安全操作规程.pdf
- 电除尘用高频高压整流设备介绍(20090110).pdf
- 电路租赁合同范本.pdf
- 略论商法的独立性.pdf
- 畜牧兽医职称考试提纲.pdf
- 畜产食品工艺学实验指导.pdf
- 略论土家族养生文化.pdf
- 疝气手术病历.pdf
- 疫情期间减免租金申请函如何写.pdf
- 安全生产考核奖惩制度3篇.doc
- 颅脑损伤病人的护理查房【优质公开课】精品PPT课件模板.pptx
- 二零二二年度德州继续教育公需科目《公共事务管理与服务能力》试题及答案.pdf
- 二零二二年度党风廉政建设知识竞赛题库(含答案).pdf
- 二零二二年度度枣庄市专业技术人员继续教育公需科目培训班互动题.pdf
- 二零二二年度儿童保健学试题库(含答案).pdf
- 二零二二年度第十九届中国东南地区数学奥林匹克竞赛高一试题(含答案).pdf
- 二零二二年度动物卫生监督题库(含答案).pdf
- 黑龙江省大庆市重点中学2023-2025学年高一下学期2月开学考试英语试题(含解析).docx
- 二零二二年度法检书记员招考《公基》测试题库(含答案).pdf
文档评论(0)