浙大数胡模论文.docVIP

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浙大数胡模论文

问题重述 通信技术极大地促进了社会的发展,而社会的飞速发展对当前的通信设备和业务又提出了更高的要求。如何利用现有的通话数据记录进行概括分析,以便做出合理的决策,进而改善通信设施、拓展新的通信业务,依然是很多通信公司所面临的一个难题。 现有一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,分别给出每个用户的主叫时间、被叫时间、通话时长以及主叫者所属基站等信息。我们要解决的问题有: 根据这些通话记录信息建立模型对300个用户分类; 根据用户分类的结果,探讨如何合理选择部分用户作为新业务的首选推广人群,并撰写一份不超过两页的给公司经理的建议; 结合基站分布地图,讨论该地基站建设情况是否合理。如需改进,给出合理的建议。 问题分析 电信客户细分是依据电信市场特有的运作规律,按照电信客户在需求、行为、支付能力等方面的差异,运用系统的方法,将整个电信用户市场划分为若干个不同的客户群,然后针对各个客户群制定有针对性的营销策略,提供差异化服务,提高客户价值和客户满意度。由于本题给出的数据仅包括每个用户的主叫时间、被叫时间、通话时长以及所属基站等信息,即描述用户行为的相关参数,我们选择根据用户行为的差异对这300个用户进行分类。 首先,我们将所有数据按用户编号排序。由数据表可以明显地看出他们在通话时间、通话时长、联系人群、基站使用数等方面存在明显的差异。一方面,这进一步确认了基于行为分类的合理性;另一方面,不同特征的交错性表明用数字精确刻画用户行为特征是不可行的,其特征只能用不同的程度来描述和区分(极高、较高、一般、较低、极低)。另外,所给数据量非常大,用户的行为又具有随机性,造成其蕴含的信息不明显,人工给出明确的分类标准具有极大的难度。因此我们认为借助计算机进行聚类分析是解决这个问题的有效途径。 一项新的通信业务的推出,往往针对了一个消费群体的需求。对于通信公司而言,给予特定客户一些他们需要的优惠是吸引客户的主要方式。这是一个典型的决策问题,且目标难以定量描述,可采用比较适合于具有分层交错评价指标的目标系统、而且目标值又难于定量描述的决策问题的层次分析法来解决。 基站位置设计的着重点是站距策略、拓扑结构、话务密度、阻挡和干扰等方面。由本题给出的数据和信息,我们只能从话务密度、单站载荷峰值等基站使用情况来评价和改进基站的建设。另外,为了降低综合建网成本,站址的拓扑结构应尽量符合规则的理想蜂窝网络结构(正六边形的结构),以保证均匀覆盖和减少导频污染。 模型假设与符号说明 3.1模型的假设 1、这300个用户全部为随机抽取,其数据能够反映当地真实情况。 2、一个用户在同一时间只能进行一项通话,即不能同时呼叫多余一个用户或被多于一个用户呼叫或同时呼叫和被叫。 3、我们认为,在一个小时内,通话记录总条数相对较多则称该时段属于繁忙时间,否则称空闲时间。由数据比较得出,每天00:00至8:00为空闲时间,其他时间为繁忙时间(时间分段见附录)。 4、2009年6月1日为周一,6月6号、7号为周六、周日,因此6月1号~5号、8号~10号为工作日,6号、7号为周末。 5、用户作为主叫者时的地理分布概率与作为被叫者时相同。 6、为了合理地描述用户的漫游倾向,基于现实情况的考虑,将地图所给区域从北到南划分为三块,即基站1~6和30所在区域为A区,基站7~17、28、29所在区域为B区,其余基站在区域为C区。由于题目中没有给出用户归属地,我们可以认为其使用时间最长的基站所在区域为其归属地,则该用户在其他区域通话时视为漫游。 7、各基站工作能力相同,即辐射度、工作半径、最大承担载荷、使用寿命等相同。 8、用户通话时使用的基站为与其距离最近的基站。 9、基站的坐标为所在经纬网方格的中心点,其中30号坐标为其所在交叉点,28、29号坐标为所在边的中点。 10、鉴于该区域海上作业比较频繁,视海洋和陆地同样为有效覆盖区域。 3.2符号说明 :第i个用户通话总时间; :第i个用户主叫总时间; :第i个用户主叫时间比例; :第i个用户漫游时间(在非归属地区通话时长); :第i个用户漫游倾向; :第i个客户繁忙时段通话总时间; :第i个用户忙时通话时间比例; :第i个用户联系人数量; :第i个用户与第j个用户通话时间; :第i个用户与不同联系人通话时间方差; :第i个用户工作日通话总时间; :第i个用户工作日通话时间比例; :第i个用户所属区域; :第i个基站的使用人数; :第i个基站每小时业务量峰值。 模型的建立与求解 4.1通信用户的分类模型 数据处理 为了使数据挖掘的效率更高、数据挖掘的结果更合理,用于挖掘的数据应该准确、简洁且易于处理, 因此我们首先按照以下原则剔除错误数据: 通话时间不得为负。 根据假设1,同一时间不得出现多方通话。 处理方法如下: 在E

文档评论(0)

132****6080 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档