- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
居民对国产科幻电影的消费舆情分析及票房
预测
作者:周杰梁佳雯何加豪
来源:《中国集体经济》2020年第34期
摘要:2019年年初,以《流浪地球》为代表的一股科幻潮流席卷中国。截止2019年3月
1日,其票房已达44.50亿。为了研究居民对国产科幻电影的消费情绪,文章选取了电影产
地、时长、上映日期、上映首日评分、上映首日评论人次和主演六种影响因素,运用决策树
(DecisionTree)和随机森林(RandomForest)算法对国产科幻电影的影响因素进行了深度挖
掘。最终以《流浪地球》为例,进行实证分析,从而证明了模型的有效性。
关键词:科幻电影;随机森林;消费舆情;AHP加权平均法
一、文献综述
最早的电影票房影响因素研究可追溯到20世纪中期,为经验性研究。主要有盖洛普对观
影观众进行经验性测定,寻找观众感兴趣内容。后期,学者开始建立模型,对电影票房影响因
素进行量化研究。如王铮,徐敏基于Logit模型对电影票房影响因素进行研究,得出续集、评
分、票价、档期、明星和导演均对票房产生积极影响。在国内学者王丽娟的研究中,电影票房
预测可分为“观众研究”、“预测模型”、”更高效的预测模型”三个阶段。然而即便到了预测模型
更高效的第三阶段,研究者们仍主要以单一因子进行票房预测,并且采取的数据样本较少。西
方电影票房的预测通过分析样本中影响电影票房因素的数据来实现,但其基本以好莱坞电影为
样本,以预测美国或北美的票房为目标,很少关注其他国家的情况。
本文以国产科幻电影为研究对象,研究国内居民对国产科幻电影的消费需求,同时在最
后给出了相应的票房预测实证分析。
二、研究方法
本研究在前人的基础上,采用了机器学习与大数据分析相结合的方法,将变量深度量
化,以获得对国产科幻电影影响显著的因素并预测其票房。
(一)数据获取
在数据获取上,使用python的scrapy爬虫框架、selenium包和fiddle软件分别爬取网页和
手机app中的相关资料,并结合分布式网络爬虫技术,高效快捷的从猫眼电影、微博等平台中
爬取海量有效资源。
(二)方法选取
决策树1.CART(ClassificationAndRegressionTrees)算法
决策树算法是一类常用的机器学习算法,是基于树形结构来进行决策的。设有数据集
D,X、Y分别为输入和输出变量,其中Y是连续变量(回归模型)。包含m个样本的数据集
D可以表示为:
找到最优的切分点(j,s)之后,切分点就能将集合切分成总损失最小的两部分。对于切
分出來的区域在重复递归这样的划分过程,直到满足条件为止。
随机森林回归算法2.
随机森林算法是一种重要的基于Bagging的集成学习方法。随机森林可以解释若干自变量
(X1,X2,…XK)对因变量Y的作用。如果因变量Y有n个观测值,有k个自变量与之有
关;在构建分类回归树的时候,随机森林会随机的在原数据中重新选择n个观测值,其中有的
观测值被选了多次。同时,随机森林随机地从k个自变量选择部分变量进行分类树节点的确
定。这样,每次构建的分类树都可能不一样。一般情况下,随机森林会随机的生成几百个至几
千个分类树,然后选择重复度最高的树作为最终的结果。
三、影响因素的指标性选择
对于影响因素的选择,本文采用逐步回归法,将变量逐个引入模型,每引入一个变量都
进行F检验和该解释变量的t检验,当后面引入的变量使得原先的变量不显著时,删除该变
量,以此确保每次引入的变量都是最优的。在研究前人的结论后得出,相关因素可能有电影时
长、电影评分、评分人次、电影是产自中国、美国、日本、还是俄罗斯、上映时间是在春节期
间(S1)、黄金周(S2)、还是暑假(S3)。经过逐步回归后,我们筛选出显著性水平较高
的相关影响因素。
四、科幻电影票房预测
(一)科幻电影影响因素量化
对上映日期1.的量化
根据电影上映的档期不同将其分为三个档期:贺岁档、黄金周(五一、十一黄金周)、
暑期档。分别用S1,S2,S3三个虚拟变量来量化电影上映的档期。
,S1=1贺岁档上映0,其他;S2=1,黄金周上映0,其他;
,S3=1暑期档上映0,其他
对时2.长、上映首日评分、上映首日评论人次的量化
文档评论(0)