日语文本语料库的开发与利用.docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
日语文本语料库的开发与利用摘 要:大连理工大学软件学院日语实验室创建的日语文本语料库JTCH(Japanese Text Corpus Handler)利用sen日语分词技术,以NHK、朝日新闻为主要文章数据来源,通过一系列有哪些信誉好的足球投注网站算法,对文章进行句子分析、数据分析和统计处理。为日语学习、教学以及科研提供了具有例句查找、数据统计和语句分析等多种功能的学习平台。关键词:文本语料库;数据分析;日语分词;日语有哪些信誉好的足球投注网站中图分类号:TP311 文献标志码:A 文章编号:1673-8454(2015)01-0058-03一、引言随着日语学习者的增多以及ICT(Information Communication Technology )技术的飞速发展,计算机网络技术对外语学习的辅助作用受到高度重视。传统的依靠人工积累进行例句分析,已经不能满足学习者对句子的质与量的要求,其准确性及真实性无法得到保障。语料库是指在随机采样基础上收集的有代表性的真实语言材料的集合,是语言运用的样本(杨慧中,2002)。如果样本具有代表性,采样具有随机性,且样本的量又足够大,则可以认为,样本就是总体的真实代表;样本具有总体的统计特征,研究真正实际使用的语言材料更能体现日本文化和了解标准日本语。日语本族语料库具有代表性的是日本国立研究所(http://nlb.ninjal.ac.jp/)。其中包含句子104,805,763条,涵盖了经济、文化、政治等多个方面,有各类书籍;提供前后搭配词频统计的查询方法。虽然数据库数据庞大,但是因为功能较少,造成数据并没有被充分利用;现代日语书面语均衡语料库(BCCWJ)的目标是构筑一个均衡语料库,为使用者提供覆盖面广、代表性强、数量充足、能够全面反映现代日语书面语使用状况的语言样本(毛文伟,2011)。BCCWJ包含17万余本各类日本书籍(文学类书籍偏多),提供了两款网上检索工具,分别为“少纳言”和“中纳言”。前者不需注册,但仅提供了字符串检索功能;后者功能更加齐备,不过需要用户注册。“中纳言”提供三种语料检索方式,分别有短单位、长单位和以无长度限制字符串为单位。但是,由于BCCWJ功能较少,不能为日语学习者提供更高的查询要求。综上,目前日本文本语料库的建设与应用,仅有日本本土的日本国立研究所和日本中纳言(https://chunagon.ninjal.ac.jp)。由于地域原因以及文化差异,中国的日语学习者在使用过程中总是无法得心应手。大连理工大学软件学院日语实验室创建的日语文本语料库( 以下简称JTCH ),作为日语学习、教学以及日语研究的平台,提供各种有哪些信誉好的足球投注网站模式,辅助日语学习者通过大量的、原汁原味的日语例句习得日语语法、词汇,并通过各种统计功能了解日语语言的逻辑思维模式。JTCH加载和存储NHK和朝日新闻的文章(2012-2014),包括32万个例句、4万篇文章的解析。二、日语文本语料库建设1.系统概述(1)文本语料库创建模块网络爬虫将NHK各地的新闻按照地域,将朝日新闻按照类别下载到本地数据库,同时自动生成标签、分句。(2)功能模块主要提供单一查询(单一精确词汇查询、模糊查询、多词查询)、搭配查询(指定位置、前后搭配、前后词性)两大模块查询。此外还有句子分析和接续词统计模块。详见图1 。单一查询中单一精确词汇查询是指用户输入关键词是什么,便查询出含有该关键词的句子。例如「ある」: 28日午後2?r半ごろ、?壑??h犬山市の日本モンキ?`パ?`クの?[?@地にある「スカイダンボ」という空中ゴンドラの1台が、地上から5mほどの高さで突然?婴?なくなり、後?Aのゴンドラも次々に停まりました。模糊查询是指根据关键词,用户自己选择关键词的活用类型,或者全部活用,查询出含有该关键词所有活用的句子。例如「ある」则查询出包含ある所有变型使用例句。多词查询是特别针对一些一种词有多种写法的情况,从而根据用户输入多个关键词,查询出含有每个关键词的句子,例如「茶||お茶」。搭配查询中的指定位置是指用户自己限定关键词的前三或者后三个词汇位置的词语或者词性,来满足更高的有哪些信誉好的足球投注网站要求。例如「食べる」我们可以指定该关键词前两个位置为名词,从而得到“リンゴを食べていいです”等例句。前后搭配和前后词性是指用户仅限定某个词语或者词性在关键词的前边或者后边,而不去关注在前几后几,从而查出想要的结果。例如「食べる」我们限定它前边有「リンゴ」,则所有关于「食べる」前边带有「リンゴ」的句子都会出现。如:①恋なんて卒业毒リンゴ 食べてみたい。②リンゴをおいしそうに食べている。③リンゴを食べていいです。词频统计是指根据用户输入的关键词,我们经过算法分析接续词的出现频率最高的前10个词汇,例如「ある」「ある」+「た」出现的次数最多,为14次;「ある」+「よう」频率为10次,依次类推,显示

文档评论(0)

sis_lxf + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档