GB/T 13715-1992信息处理用现代汉语分词规范.pdf

  • 122
  • 0
  • 约1.9万字
  • 约 12页
  • 2019-01-03 发布于四川
  • 正版发售
  • 现行
  • 正在执行有效期
  •   |  1992-10-04 颁布
  •   |  1993-06-01 实施

GB/T 13715-1992信息处理用现代汉语分词规范.pdf

  1. 1、本标准文档 共12页,仅提供部分内容试读。
  2. 2、本网站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
  3. 3、本网站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
  4. 4、标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题
查看更多
中华人民共和 国国家标准 信息处理用现代汉语分词规范 GB/T13715一92 ContemporaryChineselanguagewordsegmentationspecification forinformationprocessing 1 主题内容与适用范围 1.1 主题内容 本规范规定了现代汉语的分词原则,以满足信息处理的需要。它对汉语信息处理的规范化,对各种 汉语信息处理系统之间的兼容性有重要的作用。 1.2 适用范围 本规范适用于汉语信息处理各领域,其他行业和有关学科可以参考使用. 汉语信息处理各领域可以根据其专门需求,进一步补充和细化本规范的规定。 2 引用标准 GB12200 汉语信息处理词汇 3 术语 以下术语引自GB12200 11汉M信息处理 用计算机对汉语的音、形、义等信息进行的处理。 3.2 词 最小的能独立运用的语言单位。 3.3 词组 由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位。 3.4 分词单位 汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词 组。 I5 汉语分词 从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程 4 概述 本规范以信息处理应用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则。 本规范用下划线_“_”作为分词单位标记。 4.1 空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点符号有:句号逗号、顿号 分号、胃号、}、巧号、叹号、引号、括号、破折号、省略号、书名号、问隔号、连接号及符号/,’”等。 4.2 字或三字词,以及结合紧密、使用稳定的二定或三字词组,一律为分词单位。例如 国家技术监督局1992-10一04批准 1993一06一01azai 1469 Gs/T 13715一92 发展 可爱 对不起 自行车 4.3 四字成语一律为分词单位。例如: 胸有成竹 欣欣向荣 四字词或结合紧密、使用稳定的四字词组,一律为分词单位。例如: 社会主义 春夏秋冬 由此可见 4.4 五字或五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分。例如: 就 是生命 成功之 母 人 心 ,泰山移 结合紧密、使用稳定的词组,分开后如违背原有组合的意义,或影响进一步的处理,则不予切分。例 如 . 不管三七二十一 4 . - 口 卜 惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位。例如: 妇女能顶半边天 他真小气,象个铁公鸡 4.6 略语一律为分词单位。例如: 科技 奥运会 工农业 浦 了 ﹃ : 百 分词单位加形成儿化音的“儿”,一律为分词单位。例如: 花儿 悄悄儿 玩儿 通 O 马 U 在现化汉语中出现的非汉字符号,例如其他语言的宇符串、数学符号、化学符号、阿拉伯数字等,仍 保留原有形式。例如: CADCO := cm 124712985763.14 49 现代汉语中其他语言的汉字音译外来词,不予切分。例如: 巧克力 吉普 4.10 不同的语言环境中的同形异构现象,按照具体语言环境的语义,根据本规范的规定进行切分。例 如 : 把 手抬起来 这个把手是木制的 5 具体说明 为叙述方便,本规范沿用了把词分为名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、 语气词、叹词、象声词等十三类的方法。 5.1 名词 5.1.,普通名词 5.1.1.1 二字的名词或结合紧密的二字名词词组,一律为分词单位。例如: 火车 牛肉 钢铁 5.1.1.2 结合紧密,分开后如违背原有组合的意义的名词性词组,一律为分词单位。例如: 有功功率 被子植物 5.1.1.3 由形容词加名词组成的

您可能关注的文档

文档评论(0)

认证类型官方认证
认证主体北京标科网络科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91110106773390549L

1亿VIP精品文档

相关文档