- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络大数据课程作业
TOC \o 1-3 \h \u 目录
HYPERLINK \l _Toc7263 1 实验环境部署 PAGEREF _Toc7263 1
HYPERLINK \l _Toc13941 1.1 主机环境 PAGEREF _Toc13941 1
HYPERLINK \l _Toc21016 1.2虚拟机环境 PAGEREF _Toc21016 1
HYPERLINK \l _Toc18220 2 方法介绍 PAGEREF _Toc18220 1
HYPERLINK \l _Toc16099 2.1 文本聚类 PAGEREF _Toc16099 1
HYPERLINK \l _Toc1558 2.2 主要的聚类方法 PAGEREF _Toc1558 2
HYPERLINK \l _Toc19432 2.3 K-means算法 PAGEREF _Toc19432 3
HYPERLINK \l _Toc29920 2.4 Hadoop实现 PAGEREF _Toc29920 4
HYPERLINK \l _Toc25759 2.5 Spark实现 PAGEREF _Toc25759 7
HYPERLINK \l _Toc1950 3 实验结果统计 PAGEREF _Toc1950 8
HYPERLINK \l _Toc29021 4 对两个平台上实现方法的对比 PAGEREF _Toc29021 8
HYPERLINK \l _Toc32664 5 收获与建议 PAGEREF _Toc32664 9
HYPERLINK \l _Toc26478 附录 PAGEREF _Toc26478 10
PAGE \* MERGEFORMAT 11
网络大数据课程作业
1 实验环境部署
1.1 主机环境
处理器 Intel(R) Core(TM)2 Duo CPU 2.80GHz
内存 8.00GB
操作系统 WIN7SP1 64bit
1.2虚拟机环境
VMware? Workstation 10.0.2 build-1744117
处理器 2Core
内存 4GB
操作系统 Ubuntu12.04 LTS Desktop 32bit
Hadoop与Spark环境在之前的练习中已经搭好。
2 方法介绍
2.1 文本聚类
文本聚类(Text clustering)主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。
文本聚类可以用于生成一篇简明扼要的摘要文档;对有哪些信誉好的足球投注网站引擎返回的结果进行聚类,使用户迅速定位到所需要的信息;对用户感兴趣的文档(如用户浏览器cache中的网页)聚类,从而发现用户的兴趣模式并用于 HYPERLINK /view/506542.htm \t /_blank 信息过滤和信息主动推荐等服务;数字图书馆服务; HYPERLINK /view/5182467.htm \t /_blank 文档集合的自动整理等等。
2.2 主要的聚类方法
(1)基于划分的方法
基于划分的聚类算法(Partitioning Method)是文本聚类应用中最为普遍的算法。方法将数据集合分成若干个子集,它根据设定的划分数目k选出k个初始聚类中心,得到一个初始划分,然后采用迭代重定位技术,反复在k个簇之间重新计算每个簇的聚类中心,并重新分配每个簇中的对象,以改进划分的质量。使得到的划分满足“簇内相似度高,簇间相似度小”的聚类原则。典型的划分聚类方法有K-means算法和K-medoids算法,两者的区别在于簇代表点的计算方法不同。前者使用所有点的均值来代表簇,后者则采用类中某个数据对象来代表簇。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,各类改进的划分算法逐渐增多。
基于划分方法的优点是运行速度快,但该方法必须事先确定k的取值。算法容易局部收敛,且不同的初始聚类中心选取对聚类结果影响较大。为此,应用最广泛的k-means算法有很多变种,他们可能在初始k个聚类中心的选择、相似度的计算和计算聚类中心等策略上有所不同,最终实现聚类结果改进的目标。
(2)基于层次的方法
基于层次的聚类算法(Hierarchical Method)又叫“分级聚类算法”或“树聚类”,它通过分解给
文档评论(0)