- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学生管理论坛文本挖掘分析
摘要:文章针对学生管理论坛学习行为分析需求,基于自然语言处理技术,利用scrapy爬虫框架对中国继教网初中数学学生管理论坛进行文本数据挖掘,开展机器学习环境下的文本挖掘学生学习问题的深入分析。利用论坛师生学习数据信息,探讨数据挖掘在数学学习论坛中具体应用方法,着重针对文本数据建立LDA模型、聚类分析,梳理教学过程中出现的高频词,帮助教育者针对性处理教育问题。
关键词:学习论坛;NLP;文本分析
一、引言
“互联网+”、人工智能、大数据、机器学习等技术应用的快速发展,教育学者积极探索信息社会如何更好地新型互联网技术运用于教育教学,将教育带入到一个全新的智能化大数据时代。关于文本数据挖掘分析的探索,本质是自然语言处理(NaturalLanguageProcessing,NLP)过程。NLP是将无结构的自然语言转换成结构化数据自然语言,便于计算机的理解、存储和管理[1]。本文以中国继教网初中数学论坛学习文本为数据源,使用NLP中TF-IDF算法衡量出现单词的关键性并用于后续聚类分析,使用LDA抽取文档主题,使用word2vec分析词条相似度,为教学者提供教育问题内容参考,针对性解决学生主要问题。
二、理论依据
(一)TF-IDF算法。TF-IDF是一种统计方法,用以评估单词对于一个文件集或一个语料库中的其中一份文件的重要程度。如果某个单词在一篇文档中出现频率高,并且在其他文章中出现的频率低,则认为这个单词有很好的类别区分能力[2]。频词(Term-Frequency,TF),衡量一个term在一篇文档中出现的频繁次数。逆文档频率(InverseDocumentFrequency,IDF),是一个词语普遍重要性的度量。(二)Word2vec模型。Word2vec模型是由Google的TomasMikolov团队提出并实现的分布式词向量表示模型,普遍应用于自然语言处理(NLP)。该模型可以在较短的时间内,从大规模的语料库中学习到高质量、多角度表达的词向量[3]。一篇文档可以通过这种模型得到该文档中每个词的低维度(100-500)向量表达,从而可以方便的计算词与词之间的语义相似度。(三)LDA主题模型。LDA模型认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA可以用来识别大规模长度文档集或语料库中潜藏的主题信息[4]。
三、基于自然语言处理技术的学生管理论坛的文本挖掘过程
(一)文本获取。本文通过Scrapy爬虫框架,从中国继教网初中数学学生管理论坛下收集文本数据,包括文章标题、文章发表时间、文章阅读量、文章全部内容。可以将中国继教网初中数学学生管理论坛从最早2014年7月到2018年10月4129篇文章扒取下来。数据保存MongoDB数据库中,最终以Excel表格导出。(二)文本预处理。常见的论坛文本预处理有去除缺失值,删除重复值,剔除异常值,中文jieba分词、去停用词处理、词频统计等数据预处理工作。其中停用词处理中,本文还添加了一些在教育教学中常出现的但是不是关键词的高频词(学生,教师,老师等),构成了自定义停用词表。经过上述预处理操作,最终得到了1400多条数据。(三)标题词云。经过预处理的数据,基本上符合机器处理的标准,但是预处理得到的数据中,依然掺杂着一些游离的、无法形成主题的数据内容。而一篇文章的标题基本都附带着一些关键词和主题词。用Python相关库进行词频统计和词云展示,初步分析所有文章谈论的主题。利用高频词查找原始Excel文档标题,利用Excel标题筛选功能,找出包含这些高频词的所有标题。从标题高频词分布中可以看出,老师们写文章的关注点主要体现在以下几个方面:1.学生培养工作原文档中检索出130条标题包含“培养”的标题,发现以下内容是培养学生的关注点。比如“怎样培养学生学习数学的兴趣?”“怎样培养得力的班干部?”从中可以得出学生培养工作可以从培养学习兴趣、培养知识能力、培养良好习惯、培养得力学生、培养自主思维以及培养自信等积极人格情感这几个方面入手。2.后进生(差生)和学困生“后进生”是对“差生”的新认知,过去由于认知错误把他们叫作差生,现在称为后进生,即“后来进步”之意[6]。学困生是那些学习成绩不理想,自律能力有限的学生。原文档中检索出173条标题包含“后进生”或“差生”的标题,比较集中的标题有“后进生转化”“转化差生的工作”。从中可以看出后进生和学困生如何转化是比较尖锐的问题。(四)基于Word2vec词向量的关联词。提取Word2vec词向量算法可以将词表示成向量,向量每一维表示某一方
我们是专业写作机构,多年写作经验,专业代写撰写文章、演讲稿、文稿、文案、申请书、简历、协议、ppt、汇报、报告、方案、策划、征文、心得、工作总结代写代改写作服务。可行性研究报告,实施方案,商业计划书,社会稳定风险评估报告,社会稳定风险分析报告,成果鉴定,项目建议书,申请报告,技术报告,初步设计评估报告,可行性研究评估报告,资金申请报告,实施方案评估报告
文档评论(0)