- 1、本文档共98页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
影评文法设计与视作品标签抽取研究
影评文法设计与影视作品标签抽取研究
摘要
随着信息数据呈现几何级数膨胀,从大数据中获取有价值的知识日益成为数据挖掘
领域热门的研究方向。目前国内外已经大量展开知识抽取以及分析方面的研究,同时基
于中文数据的知识获取研究也得到快速发展。
本文将通过分析影视作品评论数据,研究一种基于影评文法与影评知识本体的知识
获取方法,该方法是一种面向非结构化中文数据的知识获取方法,旨在从大量以非结构
化形式存在的影视领域重要知识中,获取到有价值、具有代表性的影视领域知识。该方
Extraction
法也称基于EKEL(ExecutableKnowledgeLanguage)的影评挖掘分析方法,是
针对影评文本进行自动获取有用的电影基本信息和电影评价信息。基于EKEL的影评挖
掘分析方法是一种结合影评文法的文本处理方法,运用设计好的影评文法结合EKEL
形成一个文本知识挖掘系统,可以有效且准确地对影视领域中的评论信息和知识进行获
取。对获取出来的影视领域知识作进一步分析,获取影视领域中更具代表性的知识,然
Film)或者
后将这些影视领域知识加以处理,通过转化为RDF(ReflectiveDisplay
owl(WebOntologyLanguage)形式,以便可以运用于某些特定领域,比如电影推荐系统
中,问答系统。
本文首先介绍了影评初始本体的定义方法,以及其在影视作品标签抽取中的作用。
然后详细说明了影评文法体系的四个组成部分,分别为载入影评初始本体文件,影视作
品常量,影评文法模式,影评知识处理主体。详细说明了各部分的定义方法以及其在影
评文法体系中的作用。之后介绍了EKEL系统的运行机制及功能,并说明了如何利用影
评文法体系,结合EKEL系统对影视作品中标签进行抽取。然后研究了如何完整系统的
设计影评文法体系,并详细说明了影评文法体系设计技术路线。通过对具体影评文法的
设计,总结了影评文法体系中各部分的设计方法和应遵循的规范。之后利用设计好的影
评文法体系,同时结合EKEL系统,利用事先获取的影视作品文本语料进行影视作品标
签抽取,产生EKEL分析树,然后是对EKEL分析树的深入分析及后处理,对获取到的影
万方数据
视作品标签进行精细化处理,逐步扩充完善影评文法体系,优化后的影评文法体系具有
结构清晰,描述合理完善,较强的泛化能力与抽取标签能力。为了验证利用本文研究的
知识抽取方法的有效性,设计影视作品标签抽取实验。在抽取实验过程中,研究了一种
针对影视作品标签抽取效果的分析方法,本文通过计算对影视作品中一类标签集抽取的
精确率和召回率,分析实验结果并总结利用本文所研究的知识抽取方法具有的优点及需
要改进的地方。最后总结了基于影评文法与影评领域知识本体的知识获取方法意义,且
对该知识获取方法的下一部研究作了展望。
关键词:影评;文法设计;标签抽取;EKEL系统;文法规范;分析树
I】
万方数据
RESEARCH0NFILM
REVIEWSGRAMMER
DESIGNrNGAND
FILMREVIEWSTAG
EXTRACTION
Abstract
Astheinformationdata the series valuable
presentsgeometric
expansion.obtain
from datahas
becomeahotresearchdirectioninthe
knowledgelarge
文档评论(0)