居民对国产科幻电影的消费舆情分析及票房预测.pdfVIP

居民对国产科幻电影的消费舆情分析及票房预测.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

居民对国产科幻电影的消费舆情分析及票房

预测

作者:周杰梁佳雯何加豪

来源:《中国集体经济》2020年第34期

摘要:2019年年初,以《流浪地球》为代表的一股科幻潮流席卷中国。截止2019年3月

1日,其票房已达44.50亿。为了研究居民对国产科幻电影的消费情绪,文章选取了电影产

地、时长、上映日期、上映首日评分、上映首日评论人次和主演六种影响因素,运用决策树

(DecisionTree)和随机森林(RandomForest)算法对国产科幻电影的影响因素进行了深度挖

掘。最终以《流浪地球》为例,进行实证分析,从而证明了模型的有效性。

关键词:科幻电影;随机森林;消费舆情;AHP加权平均法

一、文献综述

最早的电影票房影响因素研究可追溯到20世纪中期,为经验性研究。主要有盖洛普对观

影观众进行经验性测定,寻找观众感兴趣内容。后期,学者开始建立模型,对电影票房影响因

素进行量化研究。如王铮,徐敏基于Logit模型对电影票房影响因素进行研究,得出续集、评

分、票价、档期、明星和导演均对票房产生积极影响。在国内学者王丽娟的研究中,电影票房

预测可分为“观众研究”、“预测模型”、”更高效的预测模型”三个阶段。然而即便到了预测模型

更高效的第三阶段,研究者们仍主要以单一因子进行票房预测,并且采取的数据样本较少。西

方电影票房的预测通过分析样本中影响电影票房因素的数据来实现,但其基本以好莱坞电影为

样本,以预测美国或北美的票房为目标,很少关注其他国家的情况。

本文以国产科幻电影为研究对象,研究国内居民对国产科幻电影的消费需求,同时在最

后给出了相应的票房预测实证分析。

二、研究方法

本研究在前人的基础上,采用了机器学习与大数据分析相结合的方法,将变量深度量

化,以获得对国产科幻电影影响显著的因素并预测其票房。

(一)数据获取

在数据获取上,使用python的scrapy爬虫框架、selenium包和fiddle软件分别爬取网页和

手机app中的相关资料,并结合分布式网络爬虫技术,高效快捷的从猫眼电影、微博等平台中

爬取海量有效资源。

(二)方法选取

决策树1.CART(ClassificationAndRegressionTrees)算法

决策树算法是一类常用的机器学习算法,是基于树形结构来进行决策的。设有数据集

D,X、Y分别为输入和输出变量,其中Y是连续变量(回归模型)。包含m个样本的数据集

D可以表示为:

找到最优的切分点(j,s)之后,切分点就能将集合切分成总损失最小的两部分。对于切

分出來的区域在重复递归这样的划分过程,直到满足条件为止。

随机森林回归算法2.

随机森林算法是一种重要的基于Bagging的集成学习方法。随机森林可以解释若干自变量

(X1,X2,…XK)对因变量Y的作用。如果因变量Y有n个观测值,有k个自变量与之有

关;在构建分类回归树的时候,随机森林会随机的在原数据中重新选择n个观测值,其中有的

观测值被选了多次。同时,随机森林随机地从k个自变量选择部分变量进行分类树节点的确

定。这样,每次构建的分类树都可能不一样。一般情况下,随机森林会随机的生成几百个至几

千个分类树,然后选择重复度最高的树作为最终的结果。

三、影响因素的指标性选择

对于影响因素的选择,本文采用逐步回归法,将变量逐个引入模型,每引入一个变量都

进行F检验和该解释变量的t检验,当后面引入的变量使得原先的变量不显著时,删除该变

量,以此确保每次引入的变量都是最优的。在研究前人的结论后得出,相关因素可能有电影时

长、电影评分、评分人次、电影是产自中国、美国、日本、还是俄罗斯、上映时间是在春节期

间(S1)、黄金周(S2)、还是暑假(S3)。经过逐步回归后,我们筛选出显著性水平较高

的相关影响因素。

四、科幻电影票房预测

(一)科幻电影影响因素量化

对上映日期1.的量化

根据电影上映的档期不同将其分为三个档期:贺岁档、黄金周(五一、十一黄金周)、

暑期档。分别用S1,S2,S3三个虚拟变量来量化电影上映的档期。

,S1=1贺岁档上映0,其他;S2=1,黄金周上映0,其他;

,S3=1暑期档上映0,其他

对时2.长、上映首日评分、上映首日评论人次的量化

文档评论(0)

baekhyun- + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档