- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
I基于的双语平行语料库自动获取系统
基于Web的双语平行语料库自动获取系统
摘要:例如:进行统一中文网页编码,...我们通过观察统计发现在那些具有URL命名相似性的双语网站中,URL的pathname与base...对于对应的英文词ei在英文句子中存在多个的中文词cj...
关键词:中文,词,中文词
类别:专题技术
来源:牛档有哪些信誉好的足球投注网站(Niudown.COM)
本文系牛档有哪些信誉好的足球投注网站(Niudown.COM)根据用户的指令自动有哪些信誉好的足球投注网站的结果,文中内涉及到的资料均来自互联网,用于学习交流经验,作品其著作权归原作者所有。不代表牛档有哪些信誉好的足球投注网站(Niudown.COM)赞成本文的内容或立场,牛档有哪些信誉好的足球投注网站(Niudown.COM)不对其付相应的法律责任!
基于Web的双语平行语料库自动获取系统
叶莎妮 吕雅娟 刘群
中国科学院计算技术研究所智能信息重点实验室
{yeshani, lvyajuan,liuqun,}
摘要:关键词:orpus Automatic Acquisition
System Based on Web
Abstract: Implemented a bilingual corpus automatic acquisition system by taking advantage of an abundance of multilingual corpus in the World Wide Web, and analyzing their content and links. First, introduced system framework and main modules; second, described every module and technology innovations in detail. A prospect for the next step was given at last. This system provided an effective way for achieving Chinese-English parallel corpus.
Keywords: Bilingual Text; Parallel Corpora; Web Mining;
引言
语料库的建设是统计学习方法的重要基础,近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。一方面,双语语料库的出现直接推动了机器翻译新技术的发展,像平行语料库为统计机器翻译的模型构建提供了必不可少的训练数据(e.g., Brown et al.1990; Melamed 2000; Och and Ney 2002),基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典(e.g., Gale and Church 1991; Melamed 1997)和翻译模板,从而改进传统的机器翻译技术。此外,双语语料库也是跨语言信息检索(e.g., Davis and Dunning 1995; Jian-Yun Nie, TREC8;),翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。
双语平行语料库建设与获取存在着很大的困难,各国都投入了大量的人力、物力和财力,但是双语平行语料库的来源主要集中在政府报告、新闻法律等特定领域,不适合真实文本应用。同时,互联网上的大规模双语文本并且具有很好的时效性和覆盖性,这为双语平行语料库的获取提供了潜在的解决途径。
研究基于Web的大规模双语平行语料库获取技术对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。本文的目标就是建设一个语料库自动获取系统。
背景介绍
加拿大蒙特利尔大学的研究者聂建云开发的系统PT Miner(Parallel Text Miner,1999):通过有哪些信誉好的足球投注网站引擎查找含有特定锚文本的网站构成双语候选网站,再依赖预先定义的语言的前后缀表,抽取出具有URL命名相似性的候选网页即如果某一URL含有一种语言的前后缀,则将这些前后缀替换为另一种语言的,构建出一个URL,如果这样构建出来的URL存在。则找到了一对候选网页对,最后再根据文本长度,网页的HTML标记结构,网页的语言等特征过滤掉候选网页中不平行的网页对。PT Miner系统在中英平行网页文本挑出几百对的中英平行网页对,经过人工的评价,有将近90%的准
您可能关注的文档
最近下载
- 2023-2024学年山东省济南市天桥区九年级上学期化学期末试题及答案.doc VIP
- 【高考真题】2024年黑、吉、辽普通高等学校招生选择性考试地理试卷 附解析 .pdf
- 小学六年级英语试卷分析报告精选课件.ppt
- 2024年学年度二年级数学期末考试质量分析总结(2篇).pdf
- 光伏项目施工方案.docx
- 2024年临床医师定期考核试题中医知识题库及答案(共330题).docx
- 第11课《山地回忆》教学设计统编版(2024)七年级语文下册.docx
- 高一地理必修一知识点 高一地理必修一知识点总结.doc VIP
- 4.高压电缆平滑铝护套特点与运用的探讨(1).pdf
- 文旅集团的面试题.pdf VIP
文档评论(0)