- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.给定一句经过正确切分和词性标注的汉语句子
一个汉语短语自动界定模型*
周 强
北京大学计算语言学研究所
北京, 100871
摘要:本文提出了一个汉语短语自动界定模型,它通过基于统计的自动界定处理,利用通过错误驱动自动学习而得到
的调整规则进行界定情况局部调整,利用人工总结的全局调整规则进行精调整等三个处理阶段,可以较好地确定一句
经过正确切分和词性标注处理的汉语句子中不同短语的边界位置,从而为进一步的汉语短语自动划分和标注处理打下
了良好的基础。对一千多句句子的实验结果表明,模型的界定正确率达到了:96.33% (封闭测试)、94.54% (开放测
试),取得了很好的处理效果。
关键字:汉语短语界定模型,短语划分,语料库自动标注
1.引言
给定一句经过正确切分和词性标注的汉语句子,如何利用其中的词语、词类和句法特征信息,确定短
语的边界位置,即哪个词语处于短语的左边界([ w),哪个词语处于短语的右边界(w ] ),哪个词
语处于短语的中间位置( w ),是汉语短语的界定研究所要解决的主要问题。如:对于汉语句子:
班长/n 给/v 他/r 一/m 套/q 工具/n , 经过短语界定处理,应能得到以下结果:[ 班长/n [ 给/v 他/r [ 一
/m 套/q ] 工具/n ] 。此问题的正确解决,对于进一步进行括号匹配和分析树生成,进而完成汉语短语
的自动划分和标注,具有重要意义。
在汉语中,某些虚词,如:助词、介词、连词、副词等,在短语中的位置一般比较固定,如:介
词一般位于短语的左边界、助词(“了”、“着”、“过”)一般位于短语的右边界、并列连词
(“和”、“与”、“同”)一般位于短语的中部等。而一些实词,包括动词、名词、形容词等,在
短语中的位置则比较灵活。但是通过利用上下文词类信息,考察不同的词类组合模式,我们还是可以
找到一些确定短语边界的规律的,如:n+f 组合,一般在f后有一个右分点;r+d+v 组合,一般在d
前有一个左分点等。对大量的人工划分语料进行类似的信息统计,就可以为自动界定短语提供许多有
用的数据。
在对此问题进行了深入研究的基础上,我们提出了一个汉语短语自动界定模型,它分为以下三个
处理阶段:
⑴. 利用从树库语料中统计得到的数据,构造统计模型,进行短语自动界定处理。
⑵. 将自动处理结果和人工校对结果相比较,发现错误事例,从中自动归纳界定情况局部调整规
则,然后,将自动习得的规则运用于统计处理结果,以达到降低错误率的目的。
⑶. 总结汉语短语的一些远距离依赖现象,依据人的语言学知识,归纳总结一些界定情况全局调
整规则,将这些规则运用于自动调整结果,可以减少误调整次数,进一步降低处理错误率。
这样,通过统计处理和机器学习,并结合人的丰富的语言学知识,取得了较好的处理效果。
在下面的几节中,第2节简要介绍了统计模型的构造方法,第3节给出了错误驱动的调整规则自
动学习的基本处理算法,第4节进行了实验结果的分析,第5节介绍了一些相关研究的进展情况,并
与我们的处理进行了比较,在最后的结语中,我们总结了模型的主要特点,并提出了一些改进设想。
2.统计模型设计
2.1 基本统计模型
令 S=W,T 为短语分析的原始输入句子,其中 W=w ,w ,...,w 为句子中的词语串,T=t ,t ,...,t
1 2 n 1 2 n
为各词语的词类标记串。设 B=b b ...,b 为句子中每个 词语/词类 对所对应的短语划分情况,b 可
1, 2, n i
取值 {0 -不分( w /t ),1-左分([ w /t ),2 -右分(w /t ] )}。这样短语界定的工作就变成寻找
i i i i i i
一个划分点序列 B ,使得:
*
您可能关注的文档
- .第四章 外汇掉期交易.ppt
- .第四章 教育目的.ppt
- .第四章 交际交往礼仪.ppt
- .第四章 多项式与插值.ppt
- .第四章 字符串处理.ppt
- .第四章 流动阻力和水头损失.ppt
- .第四章 晶体的微观对称性.pdf
- .第四章 理论分布与抽样分布.ppt
- .第四章 系统工程方法论.pdf
- .第四章y网页设计范例题目.PDF
- [中央]2023年中国电子学会招聘应届生笔试历年参考题库附带答案详解.docx
- [吉安]2023年江西吉安市青原区总工会招聘协理员笔试历年参考题库附带答案详解.docx
- [中央]中华预防医学会科普信息部工作人员招聘笔试历年参考题库附带答案详解.docx
- [保定]河北保定市第二医院招聘工作人员49人笔试历年参考题库附带答案详解.docx
- [南通]江苏南通市崇川区人民法院招聘专职人民调解员10人笔试历年参考题库附带答案详解.docx
- [厦门]2023年福建厦门市机关事务管理局非在编工作人员招聘笔试历年参考题库附带答案详解.docx
- [三明]2023年福建三明市尤溪县招聘小学幼儿园新任教师79人笔试历年参考题库附带答案详解.docx
- [哈尔滨]2023年黑龙江哈尔滨市木兰县调配事业单位工作人员笔试历年参考题库附带答案详解.docx
- [上海]2023年上海市气象局所属事业单位招聘笔试历年参考题库附带答案详解.docx
- [台州]2023年浙江台州椒江区招聘中小学教师40人笔试历年参考题库附带答案详解.docx
最近下载
- 关于2025年度组织生活会谈心谈话记录(书记对委员、班子主要负责人与成员)+组织生活会一对一谈心谈话记录(支委之间).pdf VIP
- 2023年新高考八省必威体育精装版名校联考高一英语试题应用文写作汇编(解析版).pdf VIP
- 10KV电缆工程拟配备的试验和检测仪器设备表.docx VIP
- 2023年韩山师范学院公共课《C语言》科目期末试卷A(有答案).docx VIP
- 深基坑开挖对周边建筑物的影响和治理方案.docx VIP
- 中考文言文总复习资料.doc
- 虾皮shopee新手卖家考试题库及答案.pdf VIP
- 2009上汽荣威r550维修手册电路图原厂.pdf
- 家庭教育指导师国家职业标准(2024版).pdf
- 庆阳市交通运输局所属事业单位选调工作人员笔试真题2023.docx VIP
文档评论(0)