- 1、本文档共57页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(3)数据存储和索引 增加部分数据冗余来降低交叉查询的代价,提高数据查询的效率 例如,冗余存储“文档正文”和句子中的“句子文本”。 在传统的关系数据库中,关系一般遵循范式的要求以尽可能地节省存储空间并保证数据一致性。 互联网文本数据量巨大,若严格按照范式的要求进行设计,查询时可能需要大量的连接(join)操作和随机读取,写入时也可能需要在多个表上进行査找和加锁,导致大大降低系统性能。 结构化文档库上尽量减少读写锁并采用较低的事务隔离级别 在结构化文档库上会有大量的并发读写和查询操作。针对互联网文本数据的特点,对数据一致性和完整性的要求可适当放宽。 在一定程度上能够容忍丢失更新、不可重复读和读“脏”数据等不一致性问题。 An Introduction to Database System (4)离线主题文本立方体建立及更新 文本立方体 对特定主题建立的多维度数据立方体,是时事探针系统的主要分析模型。 和传统的RDW上建立的单个数据立方体不同,系统中每个主题都可以建立一个对应的文本立方体以对该主题进行分析操作。文本立方体可根据用户查询在匹配的所有文档上对结构化数据进行高效并行统计而建立。每个维度中的项由所有文档中出现的实例构成。 和传统的数据立方体不同,在文本立方体中不具有直接的度量值可以使用。 如时事探针系统通过比较文档(记录) 和维度值的紧密程度来计算度量值。对于相关人物A,考虑A在文档D中出现的次数、 位置、所在句子的长短等特征,并同时考虑报道的来源来计算A在D中的度量值。 在线处理部分 负责接收用户查询,检索相关文档及文本立方体并返回给用户。 其主要模块包括关键词分词、倒排表文档匹配及排序、文本立方体生成及缓存、文档及文本立方体展示及交互等。 An Introduction to Database System 14.2.2数据服务实时推荐—基于大数据分析的用户建模 基于大数据分析的用户建模 是指面向大众的信息服务类应用在为用户提供信息服务的同时,依托庞大的用户群,通过用户原创内容(User Generated Content, UGC)或者系统日志等方式不断地收集数据,利用这些与用户的行为紧密相关的数据来分析用户的兴趣特征,创建用户的描述文件(user profile)。 用户建模的目标 是为了准确把握用户的行为特征、兴趣爱好等,进而较为精准地向用户提供个性化的信息服务或信息推荐。 互联网网站通过对用户点击日志的分析,识别用户的偏好,以支持个性化的页面布局、进行精准的广告投放等; 电信行业通过对用户消费信息、当前位置、使用习惯等数据的分析,为用户及时推荐符合用户需求的服务、产品、内容等。 An Introduction to Database System 基于大数据分析的用户建模 1.面向用户建模的大数据系统架构 2.数据分析:用户建模的基础工具 3.数据服务:用户建模的价值体现 An Introduction to Database System 1.面向用户建模的大数据系统架构 在大数据采集和存储的基础上,使用在线分析和离线分析两类技术,从大数据中发现用户的兴趣属性,构建动态的用户兴趣模型,以数据服务的方式管理和维护用户兴趣模型中的数据,支持上层的信息推荐等各种各样的应用。 这类系统中数据分析和数据服务构成了大数据系统的两类典型的负载。 An Introduction to Database System 2.数据分析:用户建模的基础工具 静态的用户建模方法 系统在构建之初就定义好了用户兴趣模型所包含的属性维度。 被传统的信息服务类应用广泛采用。 动态的用户建模方法 从用户行为相关的实时大数据中使用数据分析和挖掘技术,得到能够反映用户兴趣和其变化的动态用户兴趣模型。 动态性不仅包含属性值的变化,还包含用户兴趣模型中属性类型、属性数量的变化。 依赖大数据的用户建模方法通常会为每个用户生成高维度的兴趣属性向量,维度可以达到数百甚至数千以上。可以较为细致和深入地刻画用户在众多方面的兴趣属性。 针对不同属性,系统会运行很多不同的用户建模任务,一个用户建模任务为用户或用户群生成一部分属性值。 An Introduction to Database System 2.数据分析:用户建模的基础工具 用户兴趣建模方法-离线分析 对结构化或半结构化的历史日志数据进行SQL分析或者使用数据挖掘和机器学习的深度分析方法。 特点 数据量大、分析复杂度高、处理代价巨大,不能够频繁调用。 适合于分析那些通过大规模数据得出的相对稳定的用户属性。 典型应用 Hadoop+MapReduce+SQL An Introduction to Database System 2.数据分析:用户建模的基础工具 用户兴趣建模方法-实时的在线分析方法 数据即
文档评论(0)