- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
295_文言信息的自动抽取:基于统计和规则的尝试
文言信息的自动抽取:基于统计和规则的尝试1
2 1,2 2
虞宁翌 ,饶高琦 ,荀恩东
(1 北京语言大学语言科学院,北京市 100083;2 北京语言大学信息科学学院,北京市 100083)
摘要:文言信息的自动抽取有利于语言监测和语料库构建。同时本文的计算研究也验证了语言学界关于汉
语文白系统连续性的自省结论。本文将从混合语料中标注文言文的问题视为短文本分类的问题进行处理。
使用基于规则和基于统计的方法对文言文、白话文本进行分类。基于规则的方法中,本文考虑文言常用虚
词和句式的影响。在基于统计的分类方法中,本文对N-gram 、朴素贝叶斯、最大熵、决策树模型的性能进
行了研究。结果表明监测虚词系统的一元语言模型的F 值达到了0.98 。
关键词:文言标注,文本分类,规则模型,统计模型
An Attempt to Ancient Chinese Extraction based on Statistical and Rule
based Methods
2 1,2 2
YU Ningyi , RAO Gaoqi , XUN Endong
(1Faculty of Language Sciences, Beijing Language and Culture University; 2College of
Information Sciences, Beijing Language and Culture University, Beijing 100083)
Abstract: The automatic extraction of ancient Chinese benefits language monitoring and corpus construction. The
computational research in this paper also help to confirm the conclusion on Chinese evolution as a continuum. This
paper regards the ancient Chinese tagging in mixed corpus as a task of short text classification . We research both
rule and statistic based methods. For rule based methods, the paper considers the effect from function words and
constructions in ancient Chinese. For statistical methods, we conduct experiments on N-gram, Naive Bayes,
Maximum Entropy, and Decision Tree. The unigram model over performs others in F value of 0.98.
Key Words: ancient Chinese tagging, text classification, rule based model, statistic based model
1 引言
中国语言由古代文言文到现代白话文经过了近三千年的发展演变。排除字形的变化,语
言本身在词汇、语法和篇章层面都产生了巨大变化,但却不失其连续性。这一特点使得在大
时间跨度上研究汉语特征变化成为重要课题。对书面语进行文言/白话标注有助于对语言进
行历时性的描写,分析语言风格,了解汉语书面语的发展情况。同时也方便对文言、白话混
杂语料的分类和加工。
传统的语言学自省的方法有其固有的主观、高成本和缓慢的局限性。在文言、白话分类
标注这一问题中引入自然语言处理的成熟方法和模型,结合专家自省知识,则有助于克服以
上问题。本文研究中发现的特征和方法反过来又可以深化对汉语演变作为一个连续统的认
识,因而具有一定的理论价值。本文的研究在一定程度上验证了
您可能关注的文档
最近下载
- Unit 6 Understanding ideas Longji Rice Terraces 课件-高中英语外研版(2019)必修第一册.pptx VIP
- 护理学导论(高职)教学教案.docx
- 2024年部编新改版语文六年级上册全册月考试题含答案(共4套).docx
- 饮用水和环境卫生公众健康宣教及风险沟通答案-2024年全国疾控系统“大学习”活动.docx VIP
- 新型冠状病毒、甲型和乙型流感病毒全预混冻干多重荧光PCR检测试剂盒及其检测方法发明专利.pdf VIP
- 基金会捐赠协议.doc VIP
- XX市智慧安居工程(一期)报警求助综合受理指挥分系详细设计方案.doc VIP
- 《乡土中国》 第11篇 《长老统治》.ppt
- [知识]职业生涯人物访谈(教师).pdf VIP
- 第六单元整本书阅读《西游记》课件 2024—2025学年统编版语文七年级上册.pptx VIP
文档评论(0)