网站大量收购独家精品文档,联系QQ:2885784924

转载 再谈词类与词性标注.docVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
转载 再谈词类与词性标注

转载 再谈词类和词性标注 原文地址:再谈词类和词性标注作者:songrou再谈词类和词性标注 宋柔 一、为什么要研究词类和词性标注 1990年代以来,机器学习为代表的统计方法在语言信息处理中占了主流地位,其主要的知识表示形式不是传统的词典、规则库,而是语料库。用作训练的汉语语料,多数是分了词、标注了词性的语料。训练所用的特征,多数就是词形和词性。如此,词性标注成了语言信息处理的根基。这个根基牢不牢,非常地关乎到应用系统的性能。此外,许多单位都花费了大量人力财力和时间在做词性标注。这个投入值不值,关乎到语言信息处理的方向引导。 奇怪的是,对于这样的大事,似乎语言本体学界和计算语言学界都不大在意。没有争论和质疑,悄没声地大家就开始做工程,应诺多少百万字、多少千万字,开始制订规范标注语料了。有课题组的语料库,公司的语料库,还有国家语料库。似乎汉语就是名动形这样的词类体系,这类体系落实到语境中,就是词性标注。英语是这样做的,取得了成功,汉语只能循此路追上去。这是顺理成章,天经地义的。进而,还有些人觉得分词规范不够,要做词性标注规范,要做成国家标准,要求大家都照此执行,不执行标准者有可能被封杀。 但是,科学不承认天经地义。越是基础性的东西,越要质疑,保证它确无问题(至少是未能发现大问题)了才能搞工程,广布基础、筑建高楼。闭着眼睛布基础盖高楼,心里是不踏实的。至于对尚在争论、尚在探索的科学问题,要像成熟的技术一样造标准,那就是捆了自己的手脚还要捆别人的手脚,更是荒唐的。 因此,我觉得有必要调查、分析、审视汉语的词类体系、词性标注体系。正好前年年底王洪君老师在语言学论丛上发起词类问题讨论,向我约稿。我并不了解王老师组织讨论的动因,只是正好合到了自己的关注焦点之一,于是就下决心花力气花时间做这件事,还拖进了一位博士生邢富坤。 我说这些背景,主要是觉得这个讨论的性质与过去几次讨论不一样了。不仅不是茶余饭后的清谈,也不是一般的不同流派学术思想的交流。在我看来,很大程度上是工程论证。这个论证将会影响到投资的取向,影响到技术的方向,影响到产业的成败,当然也影响到子孙后代对我们这一代人智慧和作为的评价。因此,语言本体学界的朋友应该不仅关心理论的解释力,还应关心理论在工程中的适用性。语言工程界的朋友则应该自己通过工程实践来思考语言知识问题,因为语言本体界的朋友没有做实际系统的体会。 下面谈具体的学术问题。 二、词类体系问题 1.汉语传统词类的本质是语义。 汉语词没有pos的形式标记,句法位置约束不强,与西方语言pos词类体系唯一可比较的是语义。最坚持句法本质论的专家心目中也是先天地有一个语义类,然后再在句法功能上为语义类找特征。 郭锐老师不赞同句法本质论,他提出了表述功能本质论。我觉得不如抽象语义本质论更符合汉语实际。下面是我给郭老师信中的话: 您的主张是词类的本质是表述功能,又说表述功能就是一种抽象的语义,是一种语法意义。又说指称、陈述、修饰这样的表述功能与事物、动作这样的概念义还是有本质的不同。事物、动作、性质是对现实世界的反应,而表述功能不是语言符号与现实世界的关系,因而不是概念语义的。表述功能是由语言内部的组织规定的,反映的是语言符号之间的关系,因而是一种语法意义。 我非常同意您把词类本质与划类标准分开来的观点,词类本质就是抽象语义,划类操作的标准是语法功能分布。但是,您对表述功能与概念语义的区分的说法我不完全同意。 首先,指称、陈述、修饰无法看作单纯的语言符号之间的关系。指称回答什么的提问,陈述回答怎么样的提问,修饰回答什么样的提问。这里,什么、怎么样、什么样显然是关于现实世界的对象的,对形式层面的语言符号只能问位置、顺序、距离、结构这种纯形式的问题。我的理解可以用下图表示: 也就是说,名词、动词、形容词是语言符号范畴中对象的类别,事物、行为、性质是现实世界范畴中对象的类别,这两大范畴的类别之间的关系是:名词指称事物,动词指称行为又陈述事物,形容词指称性质又陈述及修饰事物、陈述及修饰行为。简而言之,表述功能表述的是两大范畴中对象类别之间的关系。脱离开现实世界范畴,仅在语言符号范畴中,无法理解指称、陈述、修饰这三个词的词汇语义。 您自己也讲到,表述功能的类型可以细分,指称可分为指称实体、指称位置、指称计量单位;修饰可分为属性修饰、计数修饰、计量修饰、指示修饰等。类越小,性质越具体,看起来越象语义类。我理解您这里说的语义类的语义就是概念语义。您91页关于送、卖等十几个动词的分析,用得是比较具体、比较细的性质给予义、获得义、制作义,显然属于概念语义。如果表述功能是语言符号之间的关系,与现实世界无关,细分之后怎么就会像概念语义的类了? 如果承认表述功能表述的是两大范畴对象类别之间的关系,那么词类的本质就不应该是表述功能,而应该是词类指称现实世界的不同对

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档