.给定一句经过正确切分和词性标注的汉语句子.pdfVIP

下载本文档

7
0
约2.44万字
约 10页
2017-10-06 发布于江苏
举报
版权申诉

.给定一句经过正确切分和词性标注的汉语句子.pdf

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

.给定一句经过正确切分和词性标注的汉语句子

一个汉语短语自动界定模型* 周强北京大学计算语言学研究所北京, 100871 摘要：本文提出了一个汉语短语自动界定模型，它通过基于统计的自动界定处理，利用通过错误驱动自动学习而得到的调整规则进行界定情况局部调整，利用人工总结的全局调整规则进行精调整等三个处理阶段，可以较好地确定一句经过正确切分和词性标注处理的汉语句子中不同短语的边界位置，从而为进一步的汉语短语自动划分和标注处理打下了良好的基础。对一千多句句子的实验结果表明，模型的界定正确率达到了：96.33% （封闭测试）、94.54% （开放测试），取得了很好的处理效果。关键字：汉语短语界定模型，短语划分，语料库自动标注 1.引言给定一句经过正确切分和词性标注的汉语句子，如何利用其中的词语、词类和句法特征信息，确定短语的边界位置，即哪个词语处于短语的左边界（[ w），哪个词语处于短语的右边界（w ] ），哪个词语处于短语的中间位置（ w ），是汉语短语的界定研究所要解决的主要问题。如：对于汉语句子：班长/n 给/v 他/r 一/m 套/q 工具/n , 经过短语界定处理，应能得到以下结果：[ 班长/n [ 给/v 他/r [ 一 /m 套/q ] 工具/n ] 。此问题的正确解决，对于进一步进行括号匹配和分析树生成，进而完成汉语短语的自动划分和标注，具有重要意义。在汉语中，某些虚词，如：助词、介词、连词、副词等，在短语中的位置一般比较固定，如：介词一般位于短语的左边界、助词（“了”、“着”、“过”）一般位于短语的右边界、并列连词（“和”、“与”、“同”）一般位于短语的中部等。而一些实词，包括动词、名词、形容词等，在短语中的位置则比较灵活。但是通过利用上下文词类信息，考察不同的词类组合模式，我们还是可以找到一些确定短语边界的规律的，如：n+f 组合，一般在ｆ后有一个右分点；r+d+v 组合，一般在ｄ前有一个左分点等。对大量的人工划分语料进行类似的信息统计，就可以为自动界定短语提供许多有用的数据。在对此问题进行了深入研究的基础上，我们提出了一个汉语短语自动界定模型，它分为以下三个处理阶段： ⑴. 利用从树库语料中统计得到的数据，构造统计模型，进行短语自动界定处理。 ⑵. 将自动处理结果和人工校对结果相比较，发现错误事例，从中自动归纳界定情况局部调整规则，然后，将自动习得的规则运用于统计处理结果，以达到降低错误率的目的。 ⑶. 总结汉语短语的一些远距离依赖现象，依据人的语言学知识，归纳总结一些界定情况全局调整规则，将这些规则运用于自动调整结果，可以减少误调整次数，进一步降低处理错误率。这样，通过统计处理和机器学习，并结合人的丰富的语言学知识，取得了较好的处理效果。在下面的几节中，第２节简要介绍了统计模型的构造方法，第３节给出了错误驱动的调整规则自动学习的基本处理算法，第４节进行了实验结果的分析，第５节介绍了一些相关研究的进展情况，并与我们的处理进行了比较，在最后的结语中，我们总结了模型的主要特点，并提出了一些改进设想。 2.统计模型设计 2.1 基本统计模型令 S=W,T 为短语分析的原始输入句子，其中 W=w ,w ,...,w 为句子中的词语串，T=t ,t ,...,t 1 2 n 1 2 n 为各词语的词类标记串。设 B=b b ...,b 为句子中每个词语/词类对所对应的短语划分情况，b 可 1, 2, n i 取值 {0 －不分（ w /t ），1－左分（[ w /t ），2 －右分（w /t ] ）}。这样短语界定的工作就变成寻找 i i i i i i 一个划分点序列 B ，使得： *