- 1、本文档共49页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
命名实体识别和关系抽取是信息抽取中的重要子任务,旨在从非结构化文本中
获取结构化数据。由于大量应用场景缺乏标注数据,因此在该类场景下进行命名实体
识别和关系抽取成为了具有挑战性的任务。标注数据中的标签信息和外部知识库中
的语义信息对少样本命名实体识别和关系抽取具有重要作用。因此,本文重点研究将
内外部知识融入少样本命名实体识别和关系抽取模型的方法,主要工作及成果如下:
(1)针对少样本命名实体识别任务中标签数据利用不充分的问题,本文提出了
一种基于标签语义信息感知的少样本命名实体识别方法。该方法是一种基于原型网
络的两阶段命名实体识别方法。在构建实体类型原型向量时,将对应实体类型所包含
的语义信息通过维度转换层与原型向量相融合。在对新样本进行实体识别时,将实体
类型的正负样本与实体类型原型向量组成实体类型三元组,依据样本到三元组的距
离进行分类。在多个数据集上的实验证明,该方法相较于以往的研究有了较大提升,
验证了其在实践中的有效性。
(2)针对少样本关系抽取任务中知识融入不足的问题,本文提出了一种融合结
构化知识的少样本关系抽取方法。该方法采用提示学习思想,使用外部知识库构建了
语义更丰富的关系提示模板。在模型预训练和微调阶段,获取该模板对应的语义表
示,并基于Dropout思想采用随机丢弃策略。实验结果表明,该方法减少了模型过拟
合现象,增强了模型的泛化能力,证明了该方法的有效性。
(3)针对大量领域数据稀缺问题,实现了专名标引系统。该系统在少样本情形
下识别命名实体,抽取实体对之间的关系,同时集成了中文分词、词性标注等模块,
并添加了模型微调等相关接口,从而实现了专名标引功能。
本文的主要贡献包括:(1)提出了一种基于标签语义信息感知的少样本命名实
体识别方法,解决了少样本命名实体识别任务中标签数据利用不充分的问题;(2)
提出了一种融合结构化知识的少样本关系抽取方法,增强了模型在少样本情形下的
泛化能力,减少了过拟合现象;(3)基于上述少样本命名实体识别和关系抽取模型,
集成了模型接口及专名标引相关模块,实现了专名标引系统。
关键词:少样本;命名实体识别;关系抽取
I
ABSTRACT
Namedentityrecognitionandrelationextractionareimportantsubtasksininformation
extraction,aimingtoobtainstructureddatafromunstructuredtext.Sincealargenumberof
applicationscenarioslackannotateddata,namedentityrecognitionandrelationextraction
havebecomechallengingtasksinsuchscenarios.Labelinformationinannotateddataand
semanticinformationinexternalknowledgebasesplayanimportantroleinfew-shotnamed
entityrecognitionandrelationextraction.Therefore,thisthesisfocusesonresearchon
methodsforintegratinginternalandexternalknowledgeintofew-shotnamedentity
recognitionandrelationextractionmodels.Themainworkandresultsareasfollows:
(1)Aimingattheproblemofinsufficientutilizationoflabeldatainthefew-shotnamed
entityrecognitiontask,thisthesisp
您可能关注的文档
- 抖音短视频中乡村女性的形象建构研究.pdf
- 汾阳太符观圣母殿明代彩塑艺术研究.pdf
- 改革开放以来《高等教育学》教材知识体系的建构研究.pdf
- 感知联合产品创新对溢价支付意愿的影响.pdf
- 歌剧《伤逝》经典唱段分析兼议悲剧美学研究.pdf
- 河南渑池鹿寺西遗址两周时期人骨的C、N稳定同位素分析.pdf
- 混合型电商平台下的制造商直销渠道入侵策略研究.pdf
- 焦化硫膏与废PVC的共水热碳化特性研究.pdf
- 教师自主支持与初中生主观幸福感的关系:自我控制与时间效能感的中介作用.pdf
- 晋北长焰煤中有机_无机组分特性及其利用过程元素迁移规律.pdf
- 【古井贡酒公司管理会计信息化问题研究7400字】.doc
- 【基于51单片机的电子打铃器定时控制系统设计5900字】.docx
- 【大班活动中大班幼儿的专注性研究的国内外文献综述3500字】.docx
- 【企业应收账款管理案例研究—以桂林三金药业公司为例8700字】.doc
- 【生鲜电商配送模式的对比分析—以京东生鲜和每日优鲜为例14000字】.docx
- 【山东日照城镇职工延迟退休意愿的问卷调研分析报告(附问卷)17000字】.docx
- 【波司登企业销售人员薪酬激励问题研究8400字(论文)】.doc
- 【Y手机制造公司作业成本法实施方案的设计和应用案例综述12000字】.docx
- 【S市高一学生函数解题错误的实证研究15000字】.docx
- 【四川浪莎实业公司财务风险管理与控制分析开题报告文献综述2700字】.doc
文档评论(0)