- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种对移动Web访问日志中层次数据的提取方法.pdf
文章编号:1007—1423(2015)12—0047-07DOI:10.3969/j.issn.1007-1423.2015.12.011
一种对移动Web访问日志中层次数据的提取方法
高丽峰1,高丽萍2,李梦颖1
(1.I四)ll大学计算机学院,成都610065;2.北京南瑞智芯微电子科技有限公司,昌平102200)
摘要:
提出一种基于可视分析的层次数据提取方法,实现对移动Web访问日志中层次数据的精确高效提取。通过数据样本
建立数据字典,确保没有信息遗漏,并根据字典统计样本并记录相关数据,建立数据网络权重图。可视化该网络,并以
可视分析的方法确定数据间的层次结构,并以此构建数据层次结构有向图,结合结点权重进行拓扑排序,使用得到的
拓扑序列更新数据字典。将待提取日志与数据字典中的关键词依次进行正则匹配,并保存提取结果。对移动Web访
现数据的精确提取。
关键词:
数据提取;可视分析;层次数据;移动Web访问日志;User-Agent
基金项目:
四川省科技厅项目(No.2013GZ0015)
0 引言 其中一个。我们定义有从属关系的同一属性数据为层
次数据.而如何从这些层次数据中提取出具有代表性
随着大数据的迅速发展.日志文件得到越来越多
的数据这一问题亟待解决。其中典型代表就是User—
人的青睐。通过对Et志文件的分析.可以挖掘出用户的
Agent域中浏览器数据的提取。通过移动姚b访问日
若干行为,统计分析用户的爱好、习惯等属性,以及这
些属性的地域性、时域性等。从而可以帮助开发者针对
晰该设备使用的浏览器,对于网页适配、市场调研等具
用户喜好开发对应的软件.使得生活更便捷:帮助设备
有重要意义。浏览器信息提取需要考虑:若干浏览器使
提供者设计更多人性化的设施。
用同一个有哪些信誉好的足球投注网站引擎:双核浏览器的开发使得同一个浏
日志文件有如下特点:实时性.日志文件随着用户
览器可能在不同情况下对应不同的有哪些信誉好的足球投注网站引擎:为了更
访问不断产生,存在明显的时空局域性;异构性,日志
好的兼容性.浏览器之间经常相互伪装。使得在一条
文件结构不规范,数据多呈半结构化或无结构:高内
User~Agent域中往往会出现多个浏览器信息。
涵.日志文件包含用户一次访问以及所使用设备的所
有相关信息。此外,移动Web访问日志文件的属性相
浏览器信息)的提取难点在于确定数据(浏览器)间的
对更多,主要表现在IP、User—Agent等域。该域中,涉及
层次结构及提取顺序。本文提出基于可视分析的层级
到移动访问设备的品牌、操作系统,以及浏览器等信
数据提取方法来解决上述问题.该方法同样适应其他
息。
领域层次数据的提取。首先.统计样本中所有字段信
然而。一些域中的一条记录可能会出现代表某一
息,建立相关数据字典:其次,通过数据字典对样本数
属性的若干字段:这些同时出现的字段相互联系.又有
据进行重新提取.并记录数据问的相关关系和出现频
一定的从属关系:真正代表该记录该属性的字段只有
万方数据
您可能关注的文档
最近下载
- 三国志9吧剧本制作教科书.pdf
- 苏教版四年级上册数学四年级上册数学第四单元《统计表和条形统计图(一)》专项练习(含答案).pdf VIP
- 温州市普通高中2025届高三第一次适应性考试(一模) 数学试卷(含答案详解)原卷.pdf
- 临床安全用药药品合理使用培训.docx
- 装配式钢结构住宅.pptx VIP
- 2023-2024学年浙江省金华市武义、永康、磐安县九年级(上)期末科学试卷.pdf
- 《面向对象程序设计C++》期末试卷及标准答案 .pdf VIP
- 五年级下-1000道口算.docx
- 九省联考2024届高三新高考适应性测试数学试题(解析版).docx
- 河南省郑州一中2024届数学八上期末调研模拟试题含解析.doc VIP
文档评论(0)