- 1、本文档共56页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘 要
随着互联网数据的爆炸式增长,海量数据来源的多源性、异质性、随机性、模糊
性等特点为数据分析带来了新的挑战,如何从海量数据中挖掘有益信息,为企业决策
提供依据变得越来越重要,也逐渐成为一个新的研究课题。从海量数据中挖掘有效信
息的方法众多,当前比较主流的一个处理方法是先将数据表示成属性网络,再通过网
络嵌入等手段提取网络特征,最后使用提取到的网络特征完成具体任务,如分类、聚
类、链接预测、推荐等。网络嵌入是将网络中节点编码成低维、稠密向量,从而避免
大数据来源的差异性、高维性、异质性等问题达到提取网络固有特征的目的。研究表
明,有效提取网络固有特征不但能加快模型训练速度,还能提高后续任务的准确度。
本文研究如何从网络中提取网络固有特征,为网络节点生成低维、稠密向量,并在真
实网络上验证获取的网络嵌入的性能。
针对当前现有网络嵌入方法未能有效挖掘网络固有特征问题,本文围绕网络嵌入
提取展开研究,主要研究内容如下:
(1) 加权融合网络拓扑特征和语义属性信息。网络拓扑部分整合三部分内容:网
络的邻接矩阵、从网络拓扑中提取的二阶邻居、共同邻居比信息;语义属性信息是由
语义属性矩阵计算而成的语义属性模块度矩阵。
(2) 网络嵌入提取。使用半监督稀疏自编码模型对融合后的向量进行训练,获得
属性网络的网络嵌入。在模型训练过程中,将半监督约束和稀疏损失约束添加到目标
函数中,引导模型提取网络特征过程以得到更高质量的网络嵌入。
(3) 将基于稀疏自编码的属性网络嵌入算法应用于引文推荐领域。利用知网文献
的引用关系,构建知网属性网络的网络拓扑;根据文献标题、作者、摘要、关键词、
分类号、发表期刊信息构造属性网络的语义属性矩阵;将融合网络拓扑和语义属性矩
阵后的向量喂入半监督稀疏自编码模型获得网络嵌入;使用获得的网络嵌入进行聚类
使相似文献相邻显示,从而提高用户查找文献效率、达到文献精准推荐目的。
关键字:引文推荐 属性网络 网络嵌入 稀疏自编码 半监督聚类
I
ABSTRACT
With the explosive growth of Internet data, the multi-source, heterogeneity, randomness
and fuzziness of massive data sources have brought new challenges to data analysis. How to
mine useful information from massive data and provide basis for enterprise decision-making
has become increasingly important, and has gradually become a new research topic. There
are many methods to mine effective information from massive data. At present, one of the
mainstream processing methods is to express data as attribute network, then extract network
features by means of network embedding, and finally use the extracted network features to
complete specific tasks, such as classification, clustering, link prediction, recommendation
and so on. Network embedding is to encode nodes in the network into low-dimensional and
dense vectors, so as to avoid the differences, high-dimensional and heterogeneity of large
data sources and
文档评论(0)