- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言理解大作业指引中文的分词-词性标注系统
自然语言理解大作业指南中文的分词-词性标注系统 赵海 上海交通大学 计算机科学与工程系 zhaohai@ 目标 根据提供的训练语料,训练一个或两个模型 在此获得的模型下,依据某个解码算法能对于输入的中文文本进行词切分和词性标注 格式 输入的训练文件格式举例,由以下类似格式的各行构成的文本文件: 中国/NR 进出口/NN 银行/NN 与/CC 中国/NR 银行/NN 加强/VV 合作/NN 输入的测试文件格式 中国进出口银行与中国银行加强合作 要求训练出的模型能够在适当的算法支撑下对以上的测试输入进行切分并且标注词性,输出的各式和训练文件相同 所有提交的系统只接受命令行格式的输入和输入,推荐命令行格式: Training: Your_program_train input.train.file output.model Test Your_program_test output.model input.test output.test 评估度量 使用比较标准答案和测试输出的f-score判定你的输出成绩 F=2RP/(R+P) R=测试输出中正确的词次数/正确答案中的词次数 P=测试输出中正确的词次数/测试输出中的词次数 只有切分和词性都对才能算完全正确一次 如果切分对,但是词性错,算正确0.5次 只要切分错,则完全干不能得分 评估度量 假设我们拥有一个标准答案的句子 中国/NR 进出口/NN 银行/NN 与/CC 中国/NR 银行/NN 加强/VV 合作/NN 你的程序对应输出 中国/NR 进出/NN 口/NN 银行/NN 与/CC 中国/NN 银行/NN 加强/VV 合作/NN 则 测试输出中正确的词个数=6.5 (第二个中国切分正确,但是词性错误) 测试输出中的词个数=9 正确答案中的词个数=8 所以 R=6.5/8 P=6.5/9 F=2RP/(R+P)=76.47% 日程表 本指南发布的同时,训练集提供下载 在本指南发布1个月内,各组完成模型的训练和解码器的编写调试 在提交截止时间前3天内提供测试文件 提交 至少需要提交如下4部分内容(请压缩打包上传,并命名为提交组编号): 你的系统的完整源代码,和至少一个平台的可执行文件 文档1:说明你的代码结构、编译选项、环境设置以及运行设置 文档2:说明的系统的工作原理,包括分类器或者其他机器学习工具的选择、特征选取,解码算法等等 处理好的测试文件,遵循和训练集同样的格式 分组和评分 自由分组,每组限1-6人 1-2人将获得110%的得分 2-5人将获得100%的得分 6人将获得90%的得分 不能在规定时间前提供分组信息的同学将由助教分配 每组的贡献分配由组员协商决定,出现争议的时候由助教裁判。 不提供贡献比例的分组视同该组每位成员贡献相同。 分组和评分 给出最高f-score得分的组将获得本项作业满分100,最低分的组将获得60分。其它组按照一个线性插值得到相应的分数。 可以使用其它的开源工具(但是要在文档中注明!),不影响你的评分 编译错误或者不能通过、文档不完整不清晰和格式错误将导致额外的分数损失 注意 所提供的输出的测试文件和所提供的程序输出不匹配的小组成绩为0分 提示 将训练集拆开少数部分出来作为开发集,评估你自己系统的性能 自己写一个打分程序用于当前的开发 技术指南 回忆课堂上提到的关于这两个处理任务的解决策略。重新看看相关的课件。 你可以采取两个策略完成这个系统 层次模型:训练两个模型,第一个模型用来分词,第二个模型用来在第一个模型的输出基础上进行词性标记 联合学习模型:在一个模型中一次性完成分词和词性标注 考虑这篇论文:/~jiangwenbin/papers/error_correction.pdf 技术指南 互联网上有现成的分词和词性标注工具,你可以考虑使用这些工具,在一些开源工具的基础上完成你的系统 如果你使用了已有的开源系统,你需要在文档中注明,提供作者和互联网链接地址 需要注意的是:要求提供一个可训练的模型,并且严格符合所提供的训练集的语言规范。如果你不加修改地直接使用一个其它切分或者词性标准的工具来进行处理,将很可能导致灾难性的结果 技术指南:分词 假定你使用两部模型,第一步完成分词 建议的步骤如下 参考我的论文 /~zhaohai/pubs/CSB-SIGHAN5rev.pdf 建议的学习模型: CRFs 使用来自Taku Kudo的CRF++ 问题形式化方法和特征集均可参考上述论文 技术指南:词性标注 建议的学习模型 HMM 或者 最大熵Markov模型 解码算法 Viterbi 算法 参考论文 /an
文档评论(0)