Web日志挖掘在远程培训教学质量评估中的应用.docVIP

下载本文档

3
0
约 5页
2016-02-29 发布于北京
举报
版权申诉

Web日志挖掘在远程培训教学质量评估中的应用.doc

1、本文档共5页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web日志挖掘在远程培训教学质量评估中的应用.doc

Web日志挖掘在远程培训教学质量评估中的应用　　【摘要】远程网络培训在给学员学习便利的同时，也给教学质量评估带来了难题。数据挖掘技术是在海量的数据中提取有用信息的有效手段，将Web挖掘技术用于远程培训教学质量的评估中，可以为网上教学质量提供有价值的参考数据，从而真正发挥远程培训的优势。　　【关键词】Web挖掘远程培训教学质量　　一、引言　　作为一种全新的不同于传统现场授课的培训方式，远程网络教学突破了传统的时空限制，利用各种多媒体手段提高培训质量，降低培训成本，为员工提供个性化培训，是满足员工职业发展的需要和构筑终身学习体系的重要手段，目前已经在电力系统的企业培训中得到广泛的应用。　　目前大多数远程培训系统只是实现了远程视频课件观看、网上答疑讨论、作业管理和考试测评等简单的功能，由于培训内容较多，无法对每个用户的访问行为进行详细记录和统计。因此，跟踪学员的网络学习行为模式，分析教学内容的访问频度等信息，对于促进远程培训的发展具有重要的意义。　　二、数据挖掘技术的优势　　数据挖掘是一种决策支持过程，它是从大量不完全的、有噪声的、模糊随机的实际应用数据中，提取出隐含在其中的但又是潜在有用的信息和知识的过程。它涉及到对数据库中的大量数据进行抽取、转换、分析以及模型化处理，从中提取辅助决策的关键性数据。通过数据挖掘，可以帮助决策者寻找规律，发现被忽略的要素，预测趋势，进行决策。　　由于远程教学质量跟踪具有学员在线学习行为的复杂性、动态性、多因素性和模糊性等特点，难以用传统的统计学评价模型进行科学地计算处理。采用数据挖掘技术，在远程网络培训系统中设计教学质量评估模块，挖掘学员的学习行为特征数据，处理学习行为特征数据，得出反馈处理结果，进行学习预警提示和教学控制或进行表扬。　　三、远程教学质量评估模块的设计　　在远程教学质量跟踪模块中，Web挖掘的目的是尽可能了解学员网络学习行为特征数据所体现出来的意义，将无规则的Web数据信息重构成结构化数据，并使用挖掘算法进行分析。　　（一）确定数据源　　远程教学质量跟踪模块主要是对学员的网络学习行为进行实时跟踪，需要采集的特征信息主要由：在线学习的时间长度、每次教学活动中的出勤率、发言或发帖的次数、教学课件的点播时间、下载次数，作业的提交时间和完成情况，参与讨论答疑的情况，知识点学习完成进度，各类测试成绩体现出来的知识点掌握情况等数据。这些数据主要来源于Web服务器端日志、客户端日志和数据库服务器日志等。也就是说要尽可能发现学员在系统上所有可能被记录下来的行为。　　（二）Web日志挖掘处理　　选择知识库是Web数据挖掘的核心，它是一个规则集合，根据不同的要求来选择最有效的挖掘算法。随着应用的深入，知识库可以不断融入新的规则，从而增加系统的智能性。在WEB数据挖掘过程当中，对原始数据进行预处理是其重要的一环，去除与挖掘目标无关的信息。数据预处理是对数据进行清理、过滤和重新组合的过程，一般包括数据清洗、用户识别、会话识别、事务识别、路径完善等几个步骤。　　（1）数据清洗　　清除服务器日志中的无关条目是各类Web使用记录挖掘的重要阶段。通常，学员的每个HTML页面请求都会产生几条日志记录，包括一些图片或索引等，只有学员请求的HTML页面才真正代表学员的信息。因此，可以删除扩展名为jpg、gif、map、CSS等资源信息，cgi结尾的脚本文件以及学员请求失败的记录，从而得到与学员学习紧密相关的记录信息。　　（2）用户识别　　数据清洗结束后进行用户识别工作，即从清洗过的Web服务器访问日志所获得的中间文件中，识别出每个用户。IP地址相同，用户使用的浏览器或操作系统不同，则判定是不同的用户。　　（3）会话识别　　在一个日志中，用户有可能多次访问某站点，因此对于一个用户的所有访问必须先分成不同的会话，将用户的访问记录分成多个独立的访问序列会话。　　（4）事务识别　　事务识别主要是把大事务分成小事务，或把多个小事务合并成一个大事务，把事务集转换成适合挖掘任务的事务集。　　通过预处理，采用具体的Web挖掘算法来进行模式识别。Web挖掘用到的技术主要有：统计分析、聚类分析、关联规则、序列模式等。由于记录了学员访问某个资源页的时间，可以通过相邻两次资源页访问的时间差来计算学员在某页面的停留时间，从而推算出学员进行某项学习所花的时间，另外学员在某段持续时间内有一个访问序列，因此，我们采用统计分析和序列模式相结合的方式来挖掘。　　发现新的模式之后，通过选择和观察将发现的规则、模式和统计值转化为知识，再经过模式分析得到有价值的模式。模式分析是整个Web挖掘过程的最后一步，其作用是排除模式发现过程中所产生无价值的规则和模式。