基于动词名词和chi特征选择的中文人物社会关系抽取-计算机应用研究.pdf

基于动词名词和chi特征选择的中文人物社会关系抽取-计算机应用研究.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优先出版计算机应用研究第卷基于动词名词和特征选择的中文人物社会关系抽取曾辉唐佳丽熊李艳黄晓辉华东交通大学信息工程学院南昌摘要针对中文人物社会关系标注语料库的匮乏和人物关系分类过于粗糙的问题采用一种简单的方式标注了八类主要人物社会关系为了有效的降低特征向量的维数避免维数灾难并尽可能去除噪声特征以提高关系抽取的准确率提出一种基于动词和名词抽取与统计量法相结合的特征选择方法并使用计算特征权重通过分类器进行实验值和正确率都得到了提高为了充分利用数据集对该特征选择方法的效果进行测试使用折交叉验证检验该方法

优先出版 计 算 机 应 用 研 究 第33 卷 基于动词名词和CHI 特征选择的中文人物社会关系抽取* 曾 辉,唐佳丽,熊李艳,黄晓辉 (华东交通大学 信息工程学院,南昌 330013) 摘 要:针对中文人物社会关系标注语料库的匮乏和人物关系分类过于粗糙的问题,采用一种简单的方式标注了八类主 要人物社会关系。为了有效的降低特征向量的维数避免维数灾难,并尽可能去除噪声特征以提高关系抽取的准确率,提 出一种基于动词和名词抽取与χ2 统计量法(CHI)相结合的特征选择方法,并使用TF-IDF 计算特征权重。通过SVM 分类器进行实验,F 值和正确率都得到了提高。为了充分利用数据集对该特征选择方法的效果进行测试,使用K-折交叉 验证检验该方法的有效性,实验表明通过该方法产生的分类模型具有较强的区分能力和泛化能力。 关键词:人物关系抽取;人物关系标注;特征选择;CHI ;SVM 分类器 中图分类号:TP391 Personal social relation extraction in Chinese based on feature selection of CHI verb and noun Zeng Hui, Tang Jiali, Xiong Liyan, Huang Xiaohui (School of Information Engineering, East China Jiaotong University, Nanchang 330013, China) Abstract: Due to the scarce of labeled Chinese corpus of social relation and the rough classification of personal social relations, eight main types of personal social relation was labeled by a simple method in this paper. It is necessary to reduce the dimension of feature vector effectively to avoid the curse of dimensionality and remove the noise characteristics to improve the accuracy of relation extraction, therefore, this paper proposed a feature selection method based on Chi square statistic combination with selection of verb and noun, and used TF-IDF to calculate weight of the feature items. After feature selection, the proposed method was tested by SVM classifier, and the results of F-Score and accuracy are improved. In order to make full use of the data set to test the effect of this feature selection method, the validity of the proposed method was tested by using k-fold cross validation. Experimental results

您可能关注的文档

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档