华中地区数学建模比赛一等奖.doc

下载文档 降价啦

180
0
约1.49万字
约 22页
2017-05-03 发布于江西
举报
版权申诉
保障服务

华中地区数学建模比赛一等奖.doc

1、本文档共22页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

华中地区数学建模比赛一等奖

第三届华中地区大学生数学建模邀请赛承诺书我们仔细阅读了第三届华中地区大学生数学建模邀请赛的竞赛细则. 我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题. 我们知道，抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出. 我们郑重承诺，严格遵守竞赛规则，以保证竞赛的公正、公平性.如有违反竞赛规则的行为，我们将受到严肃处理. 我们的参赛编号为：参赛队员 (签名) ：队员1：郑美玲队员2：陈兴隆队员3：杨颖武汉工业与应用数学学会第三届华中地区大学生数学建模邀请赛组委会第三届华中地区大学生数学建模邀请赛编号专用页选择题号： A 参赛编号：（以下内容参赛队伍不需要填写）竞赛评阅编号： PAGE PAGE 8 第三届华中地区大学生数学建模邀请赛题目：互联网论坛用户的识别与探究【摘要】互联网论坛已经成为互联网企业与用户、用户与用户之间互动的主要平台.为了解决在互动氛围中衍生出的众多商机与难题,怎样对论坛用户进行有效识别的问题应运而生.本文以论坛用户为研究对象,运用网络神采软件对论坛信息进行数据挖掘(采集过程见附录三),建立模型分别对言论领袖、话题用户、活跃用户和关系圈这四个方面进行了识别. （1）对于言论领袖的识别:首先，运用网络神采软件从网站上搜集得到相应的数据,提取发帖数、精华贴数、浏览数和跟帖数的多个用户的数据信息,再运用多种科学的手段筛选出可能是言论领袖的网络用户, 针对影响用户成为言论领袖几个主要因素,建立了层次分析模型,判断出谁最有可能是言论领袖. （2）对于话题用户的识别：本文从跟帖主题和谈论内容等方面进行考虑,建立了关键字识别模型,首先对某一特定话题进行模糊处理,得到关键词及关键词的近义词所组成的集合；然后对某一时间段内的主题帖标题进行检索,所讨论话题关键词及近义词的主贴的集合；最后,对上述步骤所出现的用户组成集合,取出现频数的均值,高于均值的用户即为可能的话题用户. （3）对于活跃用户的识别：本文建立了模糊决策模型,对论坛用户的各指标数据无纲量化处理后，在进行模糊隶属度排序得到用户的隶属度活跃程度综合水平的高低排序. （4）对于关系圈的识别：针对某一个用户的关系圈,本文通过对户主的每一个帖子所有的回复用户进行统计,采用一定的筛选流程,运用Excel统计软件,就可以找到与户主经常联系的用户,即可以得到户主的关系圈. 本文主要围绕网络论坛上各种用户的识别,通过软件对数据进行挖掘,建立层次分析模型及模糊决策模型，再结合MATLAB软件进行合理的求解. 关键词：数据挖掘,用户识别,层次分析模型,模糊决策模型一、问题重述中国互联网经历了十年的快速增长期,已经形成较为成熟的应用.而互联网论坛则是互联网从信息单项推送模式向互动模式的转型,进而已经成为互联网域用户、用户与用户之间重要的互动平台.在这样的互动氛围中衍生出了很多商业和运营难题,解决这些难题的首要条件就是企业能够对论坛内的用户进行有效识别.因此,本文将围绕互联网用户识别,重点解决以下几个问题： 1、根据论坛所发帖子的跟帖数量、精华贴数、置顶时间、发帖总数等变量切入,发现言论领袖,并进行综合评价. 2、依据跟帖主题、谈论内容判断话题用户的定位,大概识别出话题用户. 3、通过登陆频率、参与话题数量等方面综合评价出活跃用户. 4、从帖子关联关系等方面综合评价,发掘人际关系圈. 二、问题分析本文以论坛用户为研究对象,通过利用多种统计软件对论坛信息进的行数据挖掘,建立数学模型,达到对言论领袖、话题用户、活跃用户和关系圈这四个方面的识别. 首先,针对言论领袖的识别,可以搜集得到论坛用户所发的帖子数、跟帖数、精华贴数等数据,抽取部分样本进行处理.本文将先建立基本的筛选步骤,对样本数据进行初步筛选得到更有