人工智能模拟辞例归纳的初步测试.docx

人工智能模拟辞例归纳的初步测试.docx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

人工智能模拟辞例归纳的初步测试

?

?

莫伯峰邱炜琦谢泽澄

摘?要:古文字考释中的辞例归纳法,其实是综合了经验和理性两个方面共同作用的一种词义推定方法。人工智能语言模型现在主要模拟了人类经验主义的方法,并在日常语言处理方面取得了比较好的效果。如果将此类模型运用于古文字领域来模拟辞例归纳,也定会有所助益。我们基于Bert模型,用《四库全书》作为特定语料对模型进行了训练。以《上博简》(1-9)中2103个字为测试对象,模拟专家的部分辞例归纳能力,预测被遮蔽起来的文字。在总数23157的备选字符中,前300预测正确率达到59%,前100预测正确率达到46%,前50预测正确率达到38%,前10预测正确率达到25%,前5预测正确率达到20%。可见,人工智能在古文字领域也具有类似人脑凭借语言经验进行辞例归纳的能力。同时,结果也提示,必须结合理性主义方法,才能实现完整的辞例归纳能力,建立相关的知识库必不可少。

关键词:古文字;辞例归纳;人工智能

辞例归纳是考释古文字的一种主要方法,前辈学者早有论述。唐兰在1935年写就的《古文字学导论》中称其为“推勘法”,将其列为考释古文字的第三种方法,认为“有许多文字是不认识的,但寻绎文义的结果,就可以认识了”{1}。黄德宽则更明确地提出,辞例归纳“是依据未识字出现的语言环境,通过对一系列辞例分析、比较、归纳,从而达到释字目的的方法”{2}。可以说,从事古文字考释的学者,有意识或无意识都一定会用到这种方法。

而实际上,辞例归纳不仅是古文字领域常用到的一种方法,只要使用语言,伴随着语言输出和语言理解,这种方法时刻都被运用着(只不过在其他领域,通常不把它单独提出来命名为“辞例归纳”)。这种“寻绎文义”“分析、比较、归纳”的过程在人类大脑里自主地进行着,显得如此自然而然,甚至很多时候我们都没有意识到它的存在。

只有當计算机程序复现“辞例归纳”的时候,我们才会注意到大脑的这一机能。比如计算机的联想输入法,只要输入一些内容,就能自动预测接下来可能会搭配的文字,这种预测其实就是根据之前的语境和辞例归纳出来的,也就是机器的“辞例归纳”。而如果使用语音输入法,输入的只是一组语音,输入法常常能根据这些语音拟测出我们想输入的文字,这种拟测也是依靠语音创设的语境和辞例而实现的。这一过程可以与人类的语言理解进行比较:聆听并记录他人的讲话,我们之所以可以把话语转写为文字,其实也就是在大脑中进行了“语音识别”的工作。所以,我们的大脑时时刻刻都在进行着辞例归纳。

现在,人工智能在处理日常语言方面,已经具有了非常强的辞例归纳能力。效果最为突出的是谷歌的Bert,基于Bert的模型在机器阅读理解顶级水平测试SQuAD1.1中表现惊人,在两个衡量指标上均超越人类。在SWAG常识推理任务中,Bert模型也同样超越了人类水平{1}。那么将这种已经较为成熟的技术应用于古文字领域,来模拟古文字专家的辞例归纳,结果会怎样?前景会如何?这就是本文将要讨论的问题。

一、辞例归纳法是一种复合性方法

在开始让计算机模拟辞例归纳法之前,我们需要先论述一下,对于计算机而言,辞例归纳到底意味着什么?比较机器与人脑辞例归纳的过程,或许有助于更为深入地理解这一方法。对于人脑而言,通过辞例来限定词义的范围,看起来好像是一项很单纯的工作,仿佛由辞例我们本就应该能够卡定词义,不需要再做什么细致的讨论。但实际上,当用机器来模拟这一过程的时候,就会发现这一过程并不那么“单纯”。通过机器模拟我们可以发现,所谓的“辞例归纳”由两项能力联合组成,所以它是一种复合的方法。下面用一个简单的例子作以阐述:

《三字经》中的第一句“人之初,性本*”。*所掩藏的文字会是什么?相信绝大部分的人都会脱口而出*是“善”。为什么“人之初,性本*”的语境直接就能把我们带向“善”这个答案?如果再稍微思考一下,荀子还提出过“性恶论”,难道*是“恶”的可能性就一定要比“善”小吗?由此可见,在根据辞例进行预测时,我们首先用到的是语感。在计算语言学中,将这称为经验主义的方法。

《三字经》中的第二句“性相近,习相*”。*号所掩藏的文字会是什么?假设我们从没读过这一句,没有任何语感可以借鉴。但相信大家稍稍琢磨,仍然可以猜出*表示“远”,因为通过语境分析可以知道*代表一个与“近”意义相反的词语,而根据我们脑中已有的常识和语言知识,便知道*是“远”了。在计算语言学中,将这称为理性主义的方法。{2}

经验主义和理性主义的划分实际上反映了人脑思维的一般规律——“快思维”和“慢思维”两套系统各有千秋,各司其职③。大脑在处理各种信息时,常会将这两套系统综合地加以运用。当有大量经验可以依靠时,通常会用快思维来迅速处理。当没有太多经验可资利用,或者经验主义处理的结果不佳时,又会转向用理性的知识加以处理。

由此可见

文档评论(0)

188****8742 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档