- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
GIZA实验报告
GIZA++ 实验报告
发表于2011-10-06
1.目标
1.2 利用平行双语语料库,通过 mkcls 构建 word classes。
1.3 利用平行双语语料库,通过 GIZA++ 进行 IBM Model 的训练。
2.实验准备
GIZA++ 是由 Franz Och 开发的 GIZA 的一个扩展,并包含了许多其他的特点。
2.2 mkcls
mkcls 是由 Franz Och 开发的一个训练词语聚类的工具。
2.3 平行双语语料库
汉英平行语料库,汉语语料需要切分,英语语料需要 tokenize
2.4 实验环境
Ubuntu 10.10 x86
g) gcc 4.4.5
3.实验步骤
从/p/giza-pp/downloads/list下载 GIZA++,此处使用是giza-pp-v1.0.7.tar.gz?,并解压到本地文件夹(默认为giza-pp)
老版本段 GIZA++ 不能被 gcc 4.3 或更高版本编译,属于一个 bug,而 Ubutu 10.10 默认安装的 gcc 4.4,有两种方法可以成功编译。
新版本的已经没有这个问题来,可以直接编译
(一)安装 g++-4.1: sudo apt-get install g++-4.1,修改 GIZA++-v2 里的 Makefile,将第5行 CXX=g++,替换为 CXX=g++-4.1
(二)修改 GIZA++-v2 中的 file_spec.h 的 37-49 行(仅针对1.0.4版本)
struct tm *local;
time_t t;
char *user;
char time_stmp[19]; //修正
char *file_spec = 0;
t = time(NULL);
local = localtime(t);
sprintf(time_stmp, “%04d-%02d-%02d.%02d%02d%02d.”, 1900 + local-tm_year,? (local-tm_mon + 1), local-tm_mday, local-tm_hour, local-tm_min, local-tm_sec); //修正
user = getenv(“USER”);
进入 giza-pp,运行命令 make,编译成功。
make 正常结束后,在 GIZA++-v2 和 mkcls-v2 目录下各生成了一些可执行文件。
3.2 构建 GIZA++ 所需的文件
a) 运行命令 ./plain2snt.out chinese english,将普通文本转化为 GIZA++ 格式
? 生成的文件
?chinese.vcb(english.vcb)
? 单词编号
? 汉语句子中的单词
? 单词的出现次数
?? chinese_english.snt(english_chinese.snt)
? 每个句子对出现的次数
? 汉语句子中的单词编号
? 英语句子中的token编号
注: 0是保留给特殊的“空”token。
b) 运行命令
./snt2cooc.out chinese.vcb english.vcb chinese_english.snt chn_eng.cooc
./snt2cooc.out english.vcb chinese.vcb english_chinese.snt eng_chn.cooc
获得共线文件
3.3 构建GIZA++所需的mkcls文件
a) 运行命令
./mkcls -pchinese -Vchinese.vcb.classes opt
./mkcls -penglish -Venglish.vcb.classes opt
? 参数设置
? -n:表示训练迭代次数,默认1次
? -p:需要聚类的已分词文本
? -V:输出信息
? opt:优化运行
? 生成的文件
? chinese.vcb.classes(english.vcb.classes)
? 按字母表序的单词
? 单词词类
? chinese.vcb.classes.cats(english.vcb.classes.cats, )
? 单词词类
? 对应词类的一组单词
您可能关注的文档
- 2017胡阳中学七年级语文第一次月考检测题答案.doc
- 2017考试汇总.doc
- 2017陕西省水平考试样题生物.doc
- 2017高考(新课标)英语二轮专题复习-专题一训练4隐含信息Word版含解析.doc
- 2017高考化学(鲁教全国)精练—第9章重要的有机化合物Word版含解析.docx
- 2017监理工程师继续教育试题及答案(一).docx
- 2017高考历史一轮考点规范练18春秋战国时期的诸子百家及汉代的思想大一统(岳麓版含解析).doc
- 2017高考满分作文热点素材.doc
- 2017版高考生物总复习模拟创新题专题7细胞的增殖分化衰老凋亡和癌变.doc
- 2017年镇江市生物中考指南-主题4.doc
- 5.3.1函数的单调性(教学课件)--高中数学人教A版(2019)选择性必修第二册.pptx
- 部编版道德与法治2024三年级上册 《科技提升国力》PPT课件.pptx
- 2.7.2 抛物线的几何性质(教学课件)-高中数学人教B版(2019)选择性必修第一册.pptx
- 人教部编统编版小学六年级上册道德与法治9 知法守法 依法维权(第一课时)课件.pptx
- 三年级上册品德道德与法治《学习伴我成长》.pptx
- 部编版小学道德与法治六年级上册6 人大代表为人民 课件.pptx
- 部编版小学道德与法治六年级上册1感受生活中的法律第一课时课件.pptx
- 2.5.2圆与圆的位置关系(教学课件)-高中数学人教A版(2019)选择性必修第一册.pptx
- 2.5.1直线与圆的位置关系-(教学课件)--高中数学人教A版(2019)选择性必修第一册.pptx
- 14.1.1 同底数幂的乘法(教学课件)-初中数学人教版八年级上册.pptx
文档评论(0)