基于Spark的贝叶斯文本分类算法研究与实现-计算机技术专业论文.docxVIP

下载本文档

26
0
约5.89万字
约 63页
2018-12-18 发布于上海
举报
版权申诉

基于Spark的贝叶斯文本分类算法研究与实现-计算机技术专业论文.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Spark的贝叶斯文本分类算法研究与实现-计算机技术专业论文

摘摘要互联网和物联网技术的快速发展推动了大数据时代的来临。各种数据正以指数级的形式快速增长，如何快速有效地管理并利用这些数据成为当今工业界和学术界研究的重点。大数据具有规模大、结构不规则、种类丰富、维度高、噪声数据多等一系列的特征。从这些数据中快速挖掘出有价值的信息需要强大的分析处理能力，传统的串行处理无法满足海量数据处理的时间需求。云计算的快速发展为大数据的分布式挖掘创造了有利条件。 Hadoop和Spark是当前主流的分布式并行计算框架，主要用作数据存储和并行计算。其存储系统主要为HDFS文件系统，HDFS具有高吞吐率以及高容错性等一系列特征，这非常符合大数据挖掘的要求。本文采用Spark作为数据处理的平台，因为Spark具有Hadoop MapReduce的优点，同时Spark是基于内存计算的框架，摒弃了Hadoop将中问结果存放在HDFS上导致后续任务反复读写磁盘而带来巨大的I／O开销，这对于迭代运算比较常见的机器学习算法具有较大的效率优势。本文结合Spark平台，研究了数据挖掘算法中的贝叶斯算法，并对其进行了优化，建立自己的分类模型，最后在Spark上进行了并行实现。主要工作包括以下几个方面： (1)针对大数据的特点进行一系列的预处理：传统的贝叶斯算法在处理大数据时需要花费大量的时间而且分类精确度不高。本文针对大数据一系列的特征建立了改进后的分类模型INBCS，首先对原始的数据集进行去除噪声处理，然后运用信息增益的方法对英文文本进行降维，由于中文的语法结构、语义表达和组织形式不同于英文，而信息增益方法将一个单独的词作为特征项来测量其信息熵的多少以实现降维，所以此方法不太适用，我们选择了TextRank方法来提取关键字和词来达到降维的目的，最后对上述处理过的数据集进行数据倾斜消除。 (2)对贝叶斯分类算法中特征项后验概率计算方法的改进：一般的朴素贝叶斯算法中特征项的后验概率只考虑了局部影响因素，即此类中该特征项个数占该类中所有特征项的比例；而没有考虑到此类中的该特征项个数占整个数据集中所有特征项的比例，此类中含有该特征项的文本数占整个数据集含有该特征项的文本总数的比例。本文引入综合影响系数将局部因素和全局因素综合考虑。 (3)对改进的分类模型INBCS在Spark上进行实现，本文实验环境采用Spark 集群生产环境，将改进的模型并行化，最后在Spark集群中测试其最佳综合影响 II 万方数据工程硕士学位论文系数、分类精确度、召回率、Fl值、时间性能和加速比。结果表明改进后的模型工程硕士学位论文系数、分类精确度、召回率、Fl值、时间性能和加速比。结果表明改进后的模型比其它算法分类效果要好，且在Spark平台上处理大数据时优势明显。关键词：云计算；大数据；Hadoop：Spark；数据挖掘；贝叶斯算法 III 万方数据 AbstractThe Abstract The rapid development of Internet and Internet of Things technology promote the advent of big data era．Now all kinds of information are growing rapidly in the form of exponential，therefore how to manage and utilize these data quickly and efficiently is became the focus of academia and industry．Big data contains a lot of features，such as large scale，irregular structure，variety，high dimension and more noise data．If you want to quickly mine any valuable information from the Big Data，which requires the powerful analysis and processing capabilities．Traditional serial processing time can not meet the needs of massive data processing．The rapid development of cloud computing provides advanced conditions for the Big Data mining． Hadoop and Spark are the most pop