中等规模海量数据处理实例分析.ppt

下载文档 降价啦

5
0
约3.22千字
约 34页
2017-12-14 发布于湖北
举报
版权申诉
保障服务

中等规模海量数据处理实例分析.ppt

1、本文档共34页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中等规模海量数据处理实例分析

中等规模海量数据处理实例分析王斌 BI 组 2009-12-04 内容项目简介流程演化过程遇到的若干问题支撑技术总结项目简介本项目通过分析用户访问标题的log日志文件，提取出用户的喜好，进而为广告投放提供精准支持此项目属于web使用挖掘的一个应用项目简介 log数据单日压缩文件约为10G，压缩比约为8 需要整合一个月的数据总共约2T~3T数据用户数量约1.5亿目前一个月活跃标题数量约1400万，支持3000万标题数量项目简介硬件环境 4 CPU 4G内存编程环境 c++ vim+ctags+cscope g++ gdb 流程演化过程—项目开始前（2008.04）动手做程序前，有过类似的经验，但所处理的数据量不大。当时具备的知识如下：诊断性能瓶颈多线程技术定长技术二进制技术抽取公共信息缓存技术双备份技术有一定的数据结构和算法基础演化过程—项目初期（2008.05）目标：简单流程开发完毕，优化以后再做遇到的主要问题：计算所的开源词库错误百出有道的词库软件因为版权问题不能用演化过程—项目进展中（2008.06）目标：做一些优化工作遇到的问题：计算所的开源词库性能非常差，百万标题需要一千秒分词本身带来不少误差问题内存碎片问题探索：利用kmp算法+trie树来解决关键词的提取演化过程—项目进展中（2008.07～08）通过不断地探索，关键词提取已经有了方案，不过偶然发现前人已经解决了关键词提取的问题，而且解决地更好，就采用了前人的算法 -----多模式串匹配算法演化过程—项目进展中（2008.09～10）遇到的问题：运行时间越来越长，甚至到了不可用的地步存储量也越来越大解决方案：原来文本文件方式改造成二进制文件方式采用缩短用户id长度和标题id长度的策略减少计算时间和存储量信息采用定长方式演化过程—项目进展中（2008.11～12）遇到的问题：二进制文件越来越大标题越来越多，导致性能恶化耗用的内存也越来越大，接近3G限制解决方案：分割大文件淘汰很久没有访问过的标题查询大数据量时用hash，小数据量用红黑树及时释放不再需要的内存遇到的若干问题如何快速处理如此多的数据？如何快速提取关键词？海量信息如何保存？如何解决大内存问题？标题如何淘汰？如何解决高容错？如何快速发现问题？支撑技术诊断性能瓶颈数据结构和算法多线程技术磁盘IO技术定长技术位技术二进制技术数学概率抽取公共信息缓存技术裁剪技术内存池技术双备份技术调试技术诊断性能瓶颈主要内容利用gprof来查找性能瓶颈（最好是单线程的程序） 80%的执行时间花在20%的代码上举例：能够找到性能比较差的函数主要用来解决如下问题快速处理海量数据数据结构和算法思想不同规模的数据量，用不同的数据结构和算法减少不必要的操作主要用到的数据结构和算法多模式串匹配算法 (log处理过程中非常有用) nth element算法 Hash （数据量大时）红黑树（中小规模用）各类排序算法倒排索引外部排序主要用来解决如下问题：快速处理海量数据快速提取关键词多线程技术主要技术点并发执行，充分利用4 CPU 流水线技术主要用来解决如下问题快速处理海量数据磁盘IO技术主要技术点磁盘读要顺序读，顺序写（性能比随机读快10倍左右）磁盘读写磁盘要分开，一个读磁盘，一个写磁盘分割大文件（大文件性能一般比小文件差）压缩技术（log文件都是压缩文件）缓存（上一页，有缓存，不是逐个记录读取的）主要用来解决如下问题快速处理海量数据高容错定长技术主要内容每个标题长度是不一样的，每个url长度也是不一样的不定长需要转变为定长主要采用md5技术（md5转换程序每秒处理能力在百万级别左右）主要用来解决如下问题快速处理海量数据海量信息保存解决大内存问题位技术主要思想充分分析数据的特性，以位为单位，而不是字节为单位来存储信息。主要用来解决如下问题快速处理海量数据海量信息保存解决大内存问题位技术举例假如用户访问17个站点信息，每个站点的信息值在0～7之间常规做法：用1个字节来保存每个站点的信息，因此需要17个字节(17×8bits=136bits) 来保存用户访问站点的信息新系统做法：由于每个站点的信息值在0～7之间，所以可以用3个位信息即可保存。需要的空间为17×3=51bits ，用7字节(56bits)即可保留用户访问站点的信息。本系统采用了这种方式后仅仅对于原用户细分系统的2千万用户数据，只需600M的内存（原系统1.7G