- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《旅游大数据应用实验》
课程考核作业一
题目:基于网络文本数据的青海省海东市旅游目的地形象感知研究
姓名学号:
年级与班级:
任课教师:
去哪儿网站网页
一、数据采集
发起请求
获取响应内容
解析数据
携程网站网页景点评论
一、数据采集
获取景区景点名称及URL
爬取景点的评论内容
分析
一、数据采集
马蜂窝网站景点数据
获取景区景点名称及排名等信息
一、数据采集
B站视频评论数据:爬取综合最多弹幕的前7个视频的评论区
获取视频的评论
抓取的结果字段包括评论时间、评论用户名、评论内容和评论点赞数四个字段
二、数据清洗
共爬取到130个景点数据
选择携程网页排名前20个景点的10页评论数据
二、数据清洗
景点名称:景点的名称。
攻略提到数量:该景点在旅游攻略中被提及的次数。
评论数量:该景点的评论数量。
景区排名:该景点在其所属地区的排名。
lng:经度。
lat:纬度。
检查并去除重复的记录。
检查缺失值并决定如何处理(删除或填充)。
格式化和标准化数据,如确保数字字段是正确的数据类型。
处理景区排名字段,可能需要从中提取更有用的信息,如排名数字。
检查异常值,特别是在lng(经度)和lat(纬度)这样的数值字段中。
数据完整性:所有130个景点的数据都是完整的,没有缺失值。
重复项:数据中没有重复的条目。
离群值检查:
在“攻略提到数量”(旅游指南中提到的次数)中,大多数景点的提及次数很少,但存在少数几个提及次数较高的离群值。
“评论数量”同样显示出一些较高的离群值,这表明某些景点比其他景点拥有更多的评论。
数据清洗操作
数据清洗结论
二、数据清洗
缺失值处理:检查数据中是否有缺失值,如果有,根据情况填充或删除。
格式统一:确保所有数据的格式一致,例如日期格式。
异常值处理:检测并处理异常值,如不合理的评分或不符合常规的评论。
文本清洗:对评论内容进行清洗,去除无意义的字符、标点、特殊符号等。
数据转换:根据需要,对数据进行适当的转换,例如将文本数据进行分词处理,以便于后续分析。
数据清洗操作
数据清洗结论
时间分布分析:查看评论的时间分布,了解游客访问的高峰期。
地理分布分析:根据IP属地,分析游客来源的地理分布。
评分分析:分析游客的整体满意度,看看大多数游客给出的评分如何。
文本分析:对评论内容进行文本分析,识别常见的正面或负面评论,提取关键词,了解游客的主要关注点。
缺失值处理:数据中没有发现缺失值。
评分异常值处理:评分列的值为1,2,3,4,5,这是正常的评分范围,没有异常值。
文本清洗:已对评论内容进行了清洗,移除了非中文字符和多余空格。
三、数据分析
景点分布
各个景点攻略提到数量
各个景点评论的数量
景点排名
从功略数看,游客最喜欢写攻略的景点是乐都南山、孟达夫迪,其次是狼土当、西来寺。
从评论数量来看,热度排行前列的景点是乐都南山、孟达夫迪,最受欢迎的景点为孟达天池和北山国家森林公园。
景点排名分析:提出排名前13的景点,排名并列第一的是旦都寺、佑宁寺、乐都南山、彩虹部落土族园。其次是五峰山、夏琼寺。
分析结论
三、数据分析
对评论内容进行情感分析
comments情感分类
0土族之乡。民族舞蹈节目还是比较有特色的值得观看👀周未和小姐妹一起去的感觉很好中性评价
1去西宁去了好几次互助,土族文化另我大开眼界!中性评价
2很好很不错的【性价比】【趣味】【景色】太棒了中性评价
3互助土族故土园景区,园区的风光是很漂亮的。中性评价
4很有民族风情特色的地方,小孩也很喜欢中性评价
5土族故土园景区风景优美,历史文化丰富中性评价
6不错的地方,景色太美了,推荐前往。中性评价
7人造景点,来了也可以看看吧!中性评价
8表演不错,值得一去中性评价
9表演不错,值得一去中性评价
10互助土族故土园景区位于青海省海东市互助土族自治县威远镇境内,距青海省会西宁市31公里。景区.
文档评论(0)