网站大量收购独家精品文档,联系QQ:2885784924

基于语料库的现代汉语新词语研究.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语料库的现代汉语新词语研究 基于语料库的现代汉语新词语研究① 亢世勇 (山东烟台师范学院) 随着中国社会的快速发展,科学技术的日益普及,汉语新词语不断涌现。对这些新词语 进行整理,研究其产生和应用的规律,无沦对现代汉语词汇的研究还是对中文信息处理都有 积极的意义.同时也对实际应用起到积极的指导作用。现代汉语新词语的研究受到了国内外 的广泛关注,学者们做了大量的研究,产生了一些引人注目的研究成果。出版了新词语词典 及词语集三十多种、新词语研究专著一本。总的来看,新词语的研究还有一定的局限,主要 表现在以下方面: 第一,这些研究成果都是印刷品,没有有效的电子版成果,不能实现资源高度共享。 第二,这些成果都是为人用的,而没有考虑到计算机应用,应用范围受到了限制。 第三,由于研究技术和研究条件的限制,各种词典收词量有限,词语的解释及引例都有 不尽完善之处,更重要的是词典提供的信息量极其有限。 由于以上的不足,造成现有的各种新词词典应用价值不高。我们拟利用计算机数据库技 术,建成现代汉语薪词语信息电子词典,再加上其他文本语料以及相关的语料库技术,开发 出现代汉语新词语语料库。在此基础上对新词语的产生途径、语法特征、音节构成、词类、 构词法、应用领域等方面进行定量的、’穷尽性的、全面的研究,说明新词语产生和发展的 规律。 一、现代汉语新词语信息电子词典的研究与实现 我们主持的科研项目。《现代汉语新词语信息电子词典》的开发与应用”2001年谈批准 确定为中国国家哲学社会科学规划项目(项目编号:叭cYvooz)。该电子词典的主要收录对 象是新词语。我们认定的新词语主要是指具有新意义或新形式的词语。电子词典收词所坚持 的原则有全面性原则、规范性与描写性相结合原则、普遍性原则、实用性原则、音节原则 等。收录的词语主要包括新造词、旧词新用、外来词、方言词、术语进入普通词汇的词、简 略词、由修辞方式固定下来的新词语等。目前已收录新词语38000多个。该电子词典在新词 ①本项研究得到国家哲学社科规划项目(编号:OIcYY002)和山东省教育厅科研项目的支持。 237 汉藏语言研究 语信息的描写上采用的是分类与属性描述相结合,以属性描述为主的方法。在粗分类的基础 上进行语法属性的描述,属性描述尽可能详尽。在确立语法属性项目时主要是根据计算机分 析和生成汉语句子的需要。涉及了词法、句法、语义、语用等几个方面的信息,几乎包括了 新词语在具体文本中所可能具有的全部词法信息、句法信息和部分语义信息。具体做法是首 先确定具体的功能标准以建立汉语的词语分类系统,并对照一个词语的句法功能表现把它归 人某个词类;然后是以功能理念指导词语语法属性项目的设置,并根据一个词语的实际用法 情况标记它的属性值。这样就可以全面系统地描写新词语的语法属性,事实上,电子词典的 每一个词语下都将汇集一大群可能有的各种语法属性。这种描述记录一个词的功能用法特征 feature set)一类的形式化手段。电子词典正 的方式类似于国外流行的复杂特征集(complex 是复杂特征集的形式化描述方法在汉语新词语的语法知识形式化方面的一次大规模的实践。 在离散式的复杂特征集的外衣下,3,8万汉语新词语的语法知识靠词组本位语法理论统一起 来,成为一个有机整体。 电子词典采用关系数据库技术(在ACCESS环境下实现),用简单明了的汉字表示各种 属性信息。整个电子词典设立总库一个,子库5个。这些库构成上下位关系,便于信息的获 取。总库的信息主要包括词语、义项、拼音、音节、例句、词性、产生途径、应用领域、构 词法、时间等。5个子库是名词库、动词库、形容词库、区别词库、构词法库。目前,总库 标注已经完成,各个分库的标注工作正在进行。该词典可应用于汉语新词语的学习和研究, 尤其可以作为中文信息处理的基本资源。 以下是基于已经标注的电子词典总库的新词语几个方面的研究,总库中标注的词语有 38659个。我们希望:第

文档评论(0)

cvde43ds5f3f4 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档