- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
rwr基于演员信息调查的的结果的数据挖掘
商务智能与数据挖掘
数据挖掘技术在电影行业中的应用
—基于演员信息调查结果的研究
目录
1商业理解 1
1.1研究背景与目的 1
1.2研究对象 1
1.3研究方法 1
2 数据理解 1
2.1数据的收集 1
2.2.数据预处理 2
3数据准备 2
3.1数据输入 2
3.2数据编码 3
4.建立模型 5
4.1决策树模型 5
4.2关联规则模型 9
4.3 BRP神经网络模型 12
4.3.1 训练 12
4.3.2 测试 14
5. 总结 15
1商业理解
1.1研究背景与目的
在当今的电影行业中,导演在选取演员时很多都是凭感觉和推荐,很好去挖掘演员信息来确定,在薪酬方面也不合理,有些导演为了提高电影票房,一味的去选取知名度较高的明星及所谓的大腕,付予高报酬,大大地增加了其制作成本。本文通过对演员调查信息的分析,找出与收入有关的因素,并分析其规则。为导演在选取演员和决定所付薪水时提供依据,有效地减少制作成本。
1.2研究对象
本文主要以Movie Survey中所调查的演员为研究对象来对演员的Income进行分析,找出其有关因素。
1.3研究方法
主要采用的是决策树技术、关联规则、神经网络3种数据挖掘方法,对大量的演员信息调查数据进行分析与挖掘,最后形成相关数据模型。
2 数据理解
2.1数据的收集
本文主要是以MovieSurvey.mdb中所调查的演员为研究对象,由于所调查的演员数量较多有3500多条,并且某些演员信息不全,经筛选后这里只取了信息完整的,所在国家为United States的Female演员,一共有310条记录。将前200条记录作为训练集,后面110条数据作为测试集。
2.2.数据预处理
由于准备用于挖掘的演员信息表中的属性个数较多,有22个。为了便于决策树模型的建立,选择其中与Income属性相关性较大的Age ,Education Level, Marital Status, Home Ownership, Num Children, Num Cars, Theater Freq 七个属性作为建立Income分类决策树模型的依据,生成新的演员信息基本数据表。
3数据准备
3.1数据输入在数据窗口,选择菜单“文件→新建→数据窗口”,建立一个新的数据文件。Age属性:20~30用“1”表示,30~40用“2”表示,40~50用“3”表示,50~60用“4”表示
变量Education level属性:master’s degree 用“1”表示,Post-Doc用“2”表示,Bachelor’s degree用“3”表示,some college 用“4”表示,Doctorate 用“5”表示,Associate’s degree用“6”表示,Grade School 用“7”表示,high school 用“8”表示。
变量Home Ownership属性:Own用“1”表示,Rent 用“2”表示
变量Marital Status属性:Married用“1”表示,Never Ma用“2”表示,Separate用“3”表示,Other 用“4”表示
变量Num Children属性:用0、1、2、3表示实际个数
变量Num Cars属性:用0、1、2、3、4表示实际个数
变量Theater Freq属性:Rarely用“1”表示,weekly用“2”表示,Monthly用“3”表示,Never 用“4”表示
编码后结果如下
图3-4 编码后数据表(图中为一部分)
4.建立模型
4.1决策树模型
用决策树方法进行挖掘的步骤和结果如下所示:
1.选择数据挖掘—决策树
图4-1 选择数据源
2.选择决策树方法
图4-2
3.数据源、决策树相关设置
其相关设置如图4-4和图4-5所示。
图4-3数据源设置
图4-4 变量设置
图4-5 决策树设置
4.得出统计信息
(1)决策树描述:
所处理记录个数:200;丢弃的记录个数:2;决策树正确率:100.0%,(分裂时一个分支的最小样本数大于2 ,连续值分叉结点的最大分叉数3;生成树方法为信息熵 ;树剪枝的方法:深度剪枝,最大深度为5) (2)决策树结果见图4-6
图4-6 决策树
(3) 决策树变量分类重要性
决策树变量分类重要性
变量名称 重要性 Education Level 87.22 Home Ownership 55.91 Marital Status 100.00 Theater Freq 58.12 Customer ID 62.26 Age 58.02 Num Children 29.32 Num Cars 58.78 表4-7决策树变量分类
您可能关注的文档
- POWERPOINT TEMPLATE 北师大二附中的研究性学习.ppt
- POWERDESIGNER 12.5培训的资料 ITPUB技术门户 中国最专业的IT技术社区.ppt
- PowerPoint使用的技巧 幻灯片1.ppt
- pop广告的设计作业.ppt
- PLAY BEAUTY百名网红美伊大赏暨年度美妆盛典活动的的策划执行的方案.pptx
- POWERPOINT 演讲的高级放映的技巧,相信很多人不知道.doc
- POP广告的设计电子教案于讴7473.ppt
- POWERPOINT 演示文稿 EDN CHINA电子的设计技术.ppt
- POWERPOINT课件制作的技巧十则.doc
- PowerPoint简报的设计软体课程教学计划.doc
文档评论(0)