网站大量收购独家精品文档,联系QQ:2885784924

基于VC++人工分词及词性标注辅助程序设计与实现.docVIP

基于VC++人工分词及词性标注辅助程序设计与实现.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于VC++人工分词及词性标注辅助程序设计与实现.doc

基于VC++的人工分词及词性标注辅助程序的设计和实现 马创新, 李斌 (南京师范大学语言科技中心,南京,210097) 提要:在语言研究中,经常要对语料进行分词和词性标注,我们使用VC++设计了一个人工分词及词性标注辅助程序,它能够根据预定的规则对标注后的语料进行检验,发现违反规则的情况就会给予提示,并且还设计了一个小键盘,减轻了标注者记忆词性标记的负担。我们使用这个辅助程序对大量的古代汉语和现代汉语的语料进行标注,结果证明,这个辅助程序既能够有效处理GB2312编码的简体汉字语料,也能够处理Unicode编码的繁体汉字语料,有效地提高了人工分词及词性标注的速度和正确率。 关键词:分词;词性标注;辅助程序;VC++; Design and Realization of the Assistant Program For Manual Word-Segmented and Part of Speech-Labeled Based on VC++ Ma Chuangxin, Li Bin ( Language Science and Technology Center, Nanjing Normal University, Nanjing, China , 210097 ) 【Abstract】 The researchers who study language often segment words and label part of speech in study language. We designed and realized an assistant program for manual word-segmented and part of speech-labeled using VC++. It can check the sentences according on preconcerted formulae. If it find the things don’t accord with the formulae, it will give advices. Furthermore, we design a small keyboard, it can relieve the researchers’ burden to remember tags. We use the assistant program to label lots of ancient books and modern books. The result proved it not only can deal with the material with simplified Chinese character, but also treat with the material with the original complex Chinese character. It can improve the speed and preciseness effectively. 【Key words】 word-segmented; part of speech-labeled; assistant program; VC++ 1 人工分词及词性标注辅助程序 在语言研究中,经常要对语料进行分词和词性标注,分词和词性标注是进行句法分析、句义分析的基础。但是在人工分词或词性标注时,经常会出现多加了分隔符(一般是空格)或是少加了分隔符等问题,有时当词性标记很多时,标注者在记忆这些词性标记时会有很大困难。我们设计的人工分词及词性标注辅助程序能够根据预定的规则对标注后的语料进行检验,发现违反规则的情况就会给予提示,并且还设计了一个小键盘,减轻了标注者记忆词性标记的负担。通过实验表明,使用这个辅助程序能够有效提高人工分词及词性标注的速度和正确率。 2 人工分词及词性标注辅助程序的功能及特点 人工分词及词性标注辅助程序的主界面如图1所示, (图1) 使用这个程序做分词及词性标注时,点击“选择语料库”命令按纽就可以选取保存在磁盘中的格式为txt的待标语料,在“从第几句开始标注”前面的编辑框中输入开始标注的句

您可能关注的文档

文档评论(0)

ygeorcgdw + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档