先秦人名识别初探.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

先秦人名识别初探

?

?

汪青青

摘要:先秦人名和现代人名的构成方式和上下史语境有很大不同。本文以先秦文献《春秋左传》为突破口,对书中的人名进行了统计分析,挖掘其内部特征及分布特征。并且利用CRF模型对先秦人名的识别进行了初步的尝试。在开放测试中,该方法取得了92.48%的准确率。

关键词:先秦人名特征识别crf型

命名实体识别是自然语言处理的重要内容。但目前这方面的研究主要集中在现代文献领域,古籍中命名实体的识别是古典文献信息化进程中的关键所在,是一个值得探索研究的问题。

人名在先秦文献中占据很大的比例。据我们对《春秋左传》27万多字的语料统计:其中人名一共出现12900多次,人名总字数为28400多个字,占全书总字数的10.41%。因此,是否能正确识别人名直接影响着自动分词的精度。此外,先秦人名识别还是解决先秦人名异名同指和同名异指的基础,也是构建先秦人名知识库的基础。

一、先秦人名的特点

先秦人名和现代人名的构成方式及其上下文语境和现在有很大的差别。因此,我们首先要充分挖掘先秦人名的内部特征和分布特征。

(一)内部特征

1、构成成分多样

现代人名一般只有“姓氏”和“名字”两种构成成分,而先秦汉语中,情况要复杂得多。其构成成分有:姓、氏、名、字、谥号、爵位、职官、尊,亲称和“氏”字等。

A、“姓”和“氏”

今天我们一说到姓和氏,大家都觉得是一回事。但在先秦时代,姓和氏是有严格区别的。先秦姓氏分而为二,男子称氏,女子称姓。姓是用来别婚姻的,氏是为了明贵贱的。姓者,统其祖考之所自出,比较稳定;氏者,别其子孙之所自分,会随着封邑、官职的改变而改变(如:卫鞅、公孙鞅、商鞅),因此有时一个人会有几个氏或者父子两代不同氏。

在先秦文献中,姓的数量很少,据统计先秦的古姓的数量大约三十多种。《左传》中一共出现了二十几种;而氏的数量比姓多得多,在《左传》中共有657个氏,主要是以国(如:晋重)、以邑(如:随会,范会)、以官(如:中行桓子)、以字(包括名,如:国参)为氏,这四种命氏发式产生的氏名473个,占70%以上。

B、“名”和“字”

先秦人既有名,又有字。名是幼时起的,供长辈呼唤。男子到了二十岁成人,要举行冠礼;女子十五岁许嫁时,举行笄礼,也要取字。供朋友呼唤。古人尊对卑称名。卑自称也称名:对平辈或尊辈则称字。当名和字连称时要先字后名。如:孟明(字)视(名)。

先秦时人名以单字为主。当时凡有文化教养的人,都以取双字名为耻,几乎形成全社会清一色的单字名。如孔丘(孔子)、庄周(庄子)等都是单字名。贵族男子的字一般由“行次(伯艋、仲、叔、季)+字+父庸(二字古通用,男子的美称)”三部分组成。例如:伯(排行)禽(字)父(男子的美称)其中,行次和“父/甫”是可以省略的。男子取字还常在前面加“子”(“子”是对男人的尊称)。例如:冉求,字“子有”。先秦贵族女子也有字,一般由“行次+姓+字+母,女”四部分构成。例如:孟(排行)妊(姓)车(字)母(女性)。其中,行次和“母,女”也可以省略。有时甚至可以单称“某母”或“某女”。

C、“爵位”和“谥号”

爵位,又称封爵、世爵,是古代皇族、贵族的封号,用以表示身份等级与权利的高低。先秦时”爵位”大致分为公、侯、伯、子、男五级。谥号是皇帝、王或有一定社会地位的人死了后,朝廷或后人按其生前有无功绩,评定褒贬给予的称号。谥号一般是固定的一些字,这些字被赋予特定的涵义。谥号大致可以分为三类:A,表扬的,例如:庄、文、武、景、烈、昭、明、睿、康、穆等;B,批评的,例如:厉、灵、炀等;c,同情的。哀、怀、愍、悼等。上古谥号多用一个字。也有用两三个字的。例如:赵孝成王。

2、内部结构复杂

现代中国姓名结构简单,即:姓氏+名。但在先秦,姓名的结构复杂多样,而且女子的人名结构和男子的人名结构也不相同。

A、女子人名结构

妇女姓名主要涉及到以下几种成分:姓、氏、字、名、谥号、尊,亲称和“氏/妇”字,这几种成分除了姓以外,其它几种姓名构成成分视具体情况决定取舍。先秦女子称姓方式主要有以下几种:

A、氏+姓,如:“许(夫氏)姬(姓)”。

B、字+姓,如:“孟姜”。

c、谥+姓,如:怀(夫谥)赢(姓)。

D、姓+“氏”字,如:“姜氏”。

这几种形式在先秦文献中出现频率较高,除此之外,先秦女子还有单称姓、名+姓、“妇”字+姓、特殊称谓+姓、尊/亲称+姓、氏+字+姓、氏+谥+姓、氏+姓+名、姓十字+姓+名等多种形式,但这些形式出现的频率很低。

B、男子人名结构

男子的姓氏制度与女子的姓氏制度是大相径庭的。男子是绝对不称姓的,这一点与女子必须称姓的原则刚好相反。男子姓名主要有以下几种构成成分:氏、字、名、排行、谥号、尊,亲称、爵位和职官等。男子称氏的方式主要有以下几种:

A、氏+字,名,例如:南(氏)季(字)。

B、氏+爵位,

文档评论(0)

186****6075 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档