网站大量收购独家精品文档,联系QQ:2885784924

.给定一句经过正确切分和词性标注的汉语句子.pdfVIP

.给定一句经过正确切分和词性标注的汉语句子.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.给定一句经过正确切分和词性标注的汉语句子

一个汉语短语自动界定模型* 周 强 北京大学计算语言学研究所 北京, 100871 摘要:本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理,利用通过错误驱动自动学习而得到 的调整规则进行界定情况局部调整,利用人工总结的全局调整规则进行精调整等三个处理阶段,可以较好地确定一句 经过正确切分和词性标注处理的汉语句子中不同短语的边界位置,从而为进一步的汉语短语自动划分和标注处理打下 了良好的基础。对一千多句句子的实验结果表明,模型的界定正确率达到了:96.33% (封闭测试)、94.54% (开放测 试),取得了很好的处理效果。 关键字:汉语短语界定模型,短语划分,语料库自动标注 1.引言 给定一句经过正确切分和词性标注的汉语句子,如何利用其中的词语、词类和句法特征信息,确定短 语的边界位置,即哪个词语处于短语的左边界([ w),哪个词语处于短语的右边界(w ] ),哪个词 语处于短语的中间位置( w ),是汉语短语的界定研究所要解决的主要问题。如:对于汉语句子: 班长/n 给/v 他/r 一/m 套/q 工具/n , 经过短语界定处理,应能得到以下结果:[ 班长/n [ 给/v 他/r [ 一 /m 套/q ] 工具/n ] 。此问题的正确解决,对于进一步进行括号匹配和分析树生成,进而完成汉语短语 的自动划分和标注,具有重要意义。 在汉语中,某些虚词,如:助词、介词、连词、副词等,在短语中的位置一般比较固定,如:介 词一般位于短语的左边界、助词(“了”、“着”、“过”)一般位于短语的右边界、并列连词 (“和”、“与”、“同”)一般位于短语的中部等。而一些实词,包括动词、名词、形容词等,在 短语中的位置则比较灵活。但是通过利用上下文词类信息,考察不同的词类组合模式,我们还是可以 找到一些确定短语边界的规律的,如:n+f 组合,一般在f后有一个右分点;r+d+v 组合,一般在d 前有一个左分点等。对大量的人工划分语料进行类似的信息统计,就可以为自动界定短语提供许多有 用的数据。 在对此问题进行了深入研究的基础上,我们提出了一个汉语短语自动界定模型,它分为以下三个 处理阶段: ⑴. 利用从树库语料中统计得到的数据,构造统计模型,进行短语自动界定处理。 ⑵. 将自动处理结果和人工校对结果相比较,发现错误事例,从中自动归纳界定情况局部调整规 则,然后,将自动习得的规则运用于统计处理结果,以达到降低错误率的目的。 ⑶. 总结汉语短语的一些远距离依赖现象,依据人的语言学知识,归纳总结一些界定情况全局调 整规则,将这些规则运用于自动调整结果,可以减少误调整次数,进一步降低处理错误率。 这样,通过统计处理和机器学习,并结合人的丰富的语言学知识,取得了较好的处理效果。 在下面的几节中,第2节简要介绍了统计模型的构造方法,第3节给出了错误驱动的调整规则自 动学习的基本处理算法,第4节进行了实验结果的分析,第5节介绍了一些相关研究的进展情况,并 与我们的处理进行了比较,在最后的结语中,我们总结了模型的主要特点,并提出了一些改进设想。 2.统计模型设计 2.1 基本统计模型 令 S=W,T 为短语分析的原始输入句子,其中 W=w ,w ,...,w 为句子中的词语串,T=t ,t ,...,t 1 2 n 1 2 n 为各词语的词类标记串。设 B=b b ...,b 为句子中每个 词语/词类 对所对应的短语划分情况,b 可 1, 2, n i 取值 {0 -不分( w /t ),1-左分([ w /t ),2 -右分(w /t ] )}。这样短语界定的工作就变成寻找 i i i i i i 一个划分点序列 B ,使得: *

您可能关注的文档

文档评论(0)

zqianqxf02 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档