- 1、本文档共43页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
复 旦 大 学
学 士 毕 业 论 文
题目:最大熵模型和条件随机场在自
然语言处理中的应用
系 别: 计算机科学与技术系
专 业: 计算机科学与技术
姓 名: 徐智婷
指导教师: 张玥杰
2008 年 5 月 31 日
I
中文摘要
中文自然语言处理中有最基本的三个问题:分词、命名体识别和词性标注。
中文不同于英文,因为中文词间没有空格,于是中文自然处理比英文困难得多。 本文讨论了最大熵模型和条件随机场在中文自然语言处理中的应用。针对 每个模型,本文首先介绍数学背景以及模型的推导,然后介绍实现中的相应细 节,最后介绍如何将模型应用在中文自然语言处理中。针对命名体识别,本文详
细介绍了如何基于领域知识抽取特征,并且介绍了全局特征的应用。
本文使用《人民日报》和SIGHAN bakeoff 4两个语料集进行实验。实验结果 表明条件随机场无论从查全率和查准率都较最大熵模型更好,并且领域知识能 平滑模型,并在一定程度上缓解过拟合问题。
关键词:最大熵模型,条件随机场,局部特征,全局特征,分词,命名体识别,词
性标注
III
ABSTRACT
There are three basic problems in Chinese Natural Language Processing: Seg- mentation, Named Entity Recognition and Part-Of-Speech Tagging. Chinese differs a lot from English as there is no blank between Chinese words, and thus it is much harder to handle with Chinese.
This paper discusses Maximum Entropy Model and Conditional Random Fields for Chinese Natural Language Processing. For each model, we first introduce mathe- matical ideas and inductions. Then, we introduce details of implementation, and finally, we introduce features we used for the problems. This paper introduces how to extract features from domain knowledge, and the usage of global features.
This paper’s experiments based on People’s daily and SIGHAN bakeoff 4. The results show that Conditional Random Fields perform better than Maximum Entropy Model on both precision and recall. Besides, domain knowledge can help to smooth the model, and help to overcome the problem of overfitting.
Key words: Maximum Entropy Model, Conditional Random Fields, Local Features, Global Features, Segmentation, Named Entity Recognition, Part-Of- Speech Tagging
PAGE \* ROMANVI
目 录
第 1 章 绪论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 本文研究的背景和意义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 国内
文档评论(0)