一种基于复杂网络模型的作者身份识别方法.PDF

一种基于复杂网络模型的作者身份识别方法.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于复杂网络模型的作者身份识别方法

第59卷 第18期 2015年9月 一种基于复杂网络模型的作者身份识别方法 ■ 李晓军 刘怀亮 杜坤 西安电子科技大学经济管理学院 西安710126 摘要:[目的/意义]作者身份识别是语言文体学的重要研究方向,利用文本特征的身份识别也是文本挖掘 的重要任务。在开放和虚拟网络环境下海量信息的作者身份或发布者的识别难题和传统作者身份识别方法在 处理效率和成本等方面存在的问题有待解决。[方法/过程]将复杂网络理论引入该研究领域,在利用传统文体 学特征识别作者身份方法的基础上结合文本词共现网络模型及其指标特征改进相关算法,使用文本文体学特 征和文本网络模型度量指标构建作者风格特征集合,通过计算文本间风格相似度进行作者识别。[结果/结论] 基于复杂网络模型的作者身份识别方法可以有效的利用作者风格特征,提高识别的精度,与其他算法的对比试 验表明其识别结果的准确性更高。 关键词:作者识别 文本分类 复杂网络 特征提取 词共现 文体学 分类号:TP391   DOI:10.13266/j.issn.0252-3116.2015.18.016 [1]   作者身份识别 作为一项应用广泛的研究,是文 有关作者身份识别的研究成果显著,相关研究主要集 本挖掘的重要探索方向,文献或文本信息资源作为当 中于利用文本表示模型[6]提取用于识别作者身份的特 前数量最大、利用率最高的信息资源,是图书情报相关 征集合等。相关研究中文献[7]使用自组织模型定义 研究领域的重要客体。在海量文本数据处理背景下, [8] 了从属某一作者的文体学 特征空间从而进行作者身 基于传统语言学研究的文体分析越来越多地借鉴自然 份的识别;文献[9]则证明了在大样本条件下运用概 [2] [3] 语言处理 的一些技术和方法 ,利用不同作者文章 率主题识别作者身份会有较高的正确率,将概率主题 在语法、词汇、修辞以及句型结构等方面的差异,结合 模型引入作者身份识别领域并取得较好的效果;国内 计算机处理技术识别作者身份已成为研究的热点,具 对该主题的研究有基于传统文体学统计特征的网络生 体成果在名著考证、用户识别和信息安全领域受到广 成内容用户身份识别[10],该方法综合文体学研究多种 泛关注和引用,在开放和虚拟网络环境下识别信息的 风格特征进行作者识别,但未对文本内容进行分析处 作者或发布者将成为图书情报领域相关研究的重要内 [11] 理;基于语义分析作者身份识别 ,将语义技术引入 容。 身份识别,仅进行简单的主题聚类;基于语句节奏特征 [4] [12] [13]   作者身份识别是以作者为标志的文本分类 ,即 的作者身份识别 、基于VSM模型的文学作品 或 作者身份识别为文本分类的一种特例。作者身份识别 [14] 典籍作者身份识别 等侧重于文本的局部特征,未能 的关键问题是从文本中提取出代表作者风格的识别特 从文本内容特征和段落篇幅特征综合考虑,在一定程 征,在评估不同文本之间风格特征相似度基础上,综合 度上影响了身份识别的准确度和精度。 各项特征参数比较结果,识别作者身份,其中以基于标   复杂网络作为复杂性科学研究的有力工具,受到 点符号和最常见功能词频数的分析方法受到较为普遍 了来自不同研究领域学者

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档