自然语言了解实验报告.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言了解实验报告

自然语言理解课程 实验报告 姓 名 赵子所在学院 专业年级 报告提交时间 联系电话 电子信箱 实验一、中文分词 实验内容 用最大匹配算法设计分词程序实现对文档分词,并计算该程序分词的正确率、召回率及F-测度。 实验数据: (1)wordlist.txt 词表文件 (2)pku_test.txt 未经过分词的文档文件 (3)pku_test_gold.txt 经过分词的文档文件 实验所采用的开发平台及语言工具 开发平台:Eclipse软件 语言工具:Java语言 实验的核心思想和算法描述 核心思想:正向最大匹配算法 (Forward MM, FMM) 算法描述: 正向最大匹配法算法如下所示:逆向匹配法思想与正向一样,只是从右向左切分,这里举一个例子: 输入例句:S1=计算语言学课程有意思 ; 定义:最大词长MaxLen = 5;S2= ;分隔符 = “/”; 假设存在词表:…,计算语言学,课程,意思,…; 最大逆向匹配分词算法过程如下: (1)S2=;S1不为空,从S1右边取出候选子串W=课程有意思; (2)查词表,W不在词表中,将W最左边一个字去掉,得到W=程有意思; (3)查词表,W不在词表中,将W最左边一个字去掉,得到W=有意思; (4)查词表,W不在词表中,将W最左边一个字去掉,得到W=意思 (5)查词表,“意思”在词表中,将W加入到S2中,S2= 意思/,并将W从S1中去掉,此时S1=计算语言学课程有; (6)S1不为空,于是从S1左边取出候选子串W=言学课程有; (7)查词表,W不在词表中,将W最左边一个字去掉,得到W=学课程有; (8)查词表,W不在词表中,将W最左边一个字去掉,得到W=课程有; (9)查词表,W不在词表中,将W最左边一个字去掉,得到W=程有; (10)查词表,W不在词表中,将W最左边一个字去掉,得到W=有,这W是单字,将W加入到S2中,S2=“ /有 /意思”,并将W从S1中去掉,此时S1=计算语言学课程; (11)S1不为空,于是从S1左边取出候选子串W=语言学课程; (12)查词表,W不在词表中,将W最左边一个字去掉,得到W=言学课程; (13)查词表,W不在词表中,将W最左边一个字去掉,得到W=学课程; (14)查词表,W不在词表中,将W最左边一个字去掉,得到W=课程; (15)查词表,“意思”在词表中,将W加入到S2中,S2=“ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=计算语言学; (16)S1不为空,于是从S1左边取出候选子串W=计算语言学; (17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/ 课程/ 有/ 意思/”,并将W从S1中去掉,此时S1=; (18)S1为空,输出S2作为分词结果,分词过程结束。 系统主要模块流程、源代码 /* 2013.11.28 中文分词 赵子豪 */ import java.io.*; import java.util.Vector; public class WordSequence{ public static void main(String args[]){ try{ FileInputStream fis=new FileInputStream(f:\\pku_test.txt); InputStreamReader SR=new InputStreamReader(fis); BufferedReader BR=new BufferedReader(SR); String pku=; while( (pku=BR.readLine())!=null){ Sequence pku_test=new Sequence(pku) ; System.out.println( ); } }catch(IOException e){ System.out.print(e); } } } class Sequence{ static final int WORD_MAX_LENGTH = 9; static Vector ve=new Vector(); FileWriter FW=new FileWriter(f:\\mypuk_test.txt,true); String seq=null; public Sequence(String str) throws IOException{ class LoadDictionary{ public LoadDictionary(Fi

文档评论(0)

yxutcangfp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档