基于SVM的汉语问句分类研究【开题报告】.doc

基于SVM的汉语问句分类研究【开题报告】.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业设计开题报告 计算机科学与技术 基于SVM的汉语问句分类研究 一、选题的背景与意义 如今已是网络信息爆炸的时代,信息浩如烟海,人们对于网络的普遍需求是怎样快速寻找到自己想要的信息。尽管目前有比较知名的有哪些信誉好的足球投注网站引擎如百度、谷歌、雅虎等,但是都存在很多不足,而对于更加准确、高效、人性的智能检索系统的研发成为人们迫切的愿望。 自动问答(Question Answering,QA)系统,是指系统接受用户以自然语言形式描述的提问,随后能够从大量的数据中查找出并且为用户返回一个简洁、准确的答案。问答系统是目前自然语言处理领域一个非常热门的问题,它被认为是新一代智能检索系统。 不同的问答系统具有不同的结构,但大部分系统有着相同的框架,包括问句理解、信息检索和答案抽取三部分。问题理解虽然是问答系统的一个子过程,但却是第一个重要的模块,这直接影响到了信息检索和答案选取的正确率。因此,找出能够良好识别汉语问句的方法,将使中文自动问答系统朝着应用于多领域的普遍方向发展。 特征选取是问句分类中最关键的一部分,这与文本分类有很多相似的地方,但是除了提取问句中的词、词性、语块句法特征外,还需提取问句中一些隐含的语义特征。目前流行的方法有识别同义词、关联词,计算语义相似度和语义相关度,语义块和命名实体识别。 对于问句分类方法的研究,目前主要集中在两个方面,一是基于规则的方法,通过专家提取各种问句类型的疑问词与其他相关词组合的特征规则,通过规则来判定问句所属类型。另一种是通过统计的方法实现问句的分类,通过对真实的经过标注的问句语料进行统计学习,提取能表达各种问句类型的特征规则,建立学习模型,实现各种问句的类型识别。 二、研究的基本内容与拟解决的主要问题: 汉语问句分类目标是根据实际问句特征将其归为一定集合的汉语问句类型中的一种,本文的分类标准参考文献[9]中的问句分类体系,将汉语问句分成50多个类型,两个层次,第一层分为6个大类,每个大类下又分多个小类,具体见表1。 表1 问句分类体系 大类 小类 缩写 缩写 表达式 人物 特定人物 团体机构 人物描述 人物列举 其他 地点 星球 城市 国家 大陆 省 河流 湖泊 山脉 海洋 岛屿 其他 数量 编码 总数 价格 百分比 速度 温度 年龄 距离 重量 面积 范围 顺序 频率 其他 时间 日期 时间 时间范围 时间列举 其他 实体 动物 植物 食物 身体 事件 机械 交通工具 语言 宗教 货币 颜色 其他 描述 定义 描述 方式 原因 其他描述 需要解决的问题是: 特征选取 是问句分类中关键的一部分,和文本分类有许多类似的地方,但是问句中包含较少的词,所有又有不同。特征选取的方法有句法特征选取和语义特征选取。 问句分类算法 采用统计学的机器学习算法,如K近邻算法(KNN),简单贝叶斯(NB),决策树(DT),支持向量机(SVM)等等,实现对特征集的分类。 数据集 利用问句事件抽取器(CQEE)提取哈工大问题集和TREC免费问题集中的一部分,并根据表1的问句分类体系选择若干小类进行测试。 三、研究方法与技术路线 1、句法特征选取 词是句子的最基本的组成单位 ,一个句子是由多个词组成 ,词性是分析句子结构的基础 ,因此选择词和词性作为基本的特征空间. 词或词性特征的提取相对比较容易,采用中科院计算所开发的分词和词性标注工具 ICTCLAS对问句进行词切分和词性标注 ,其中词性标注按照北大的词性标注集规范进行。 2、用支持向量机(SVM)进行统计分类 SVM分类器中的特征都是数字型,为此必须对特征进行编码,将其转化为数字型,并提取相应编码项的特征值,作为LIBSVM的训练特征向量输入. 其向量输入格式为:〈label〉〈index1〉:〈value1〉〈index2〉:〈value2〉??〈indexn〉: 〈valuen〉,其中label为问句相应类别的编号,〈index〉是问句中特征定义的编号,〈value〉为其对应的特征项的特征值. 对于每一个问句,要求提取出一个上面表达形式的特征向量用于训练和测试. 问句分类器选取了语义相似度的特征,因此对该特征进行编码,即确定〈index〉项序号和具体特征之间的对应关系. 特征编码要借助于问句类别表、FAQ标准问句库、中科院词表。 特征编码确定后,对于每一个问句只需确定这个特征编号( Index)在问句中对应的特征值(Value) ,对选取特征只取两个值(0或1).。对问句与标准问句库进行相似度计算后,判断该问句是否包含相关特征项. 若问句中出现该对应编码的特征,则对应的特征值为1,否则为0。然后对每一个训练和测试问句构建出一个表达问句的SVM特征向量。按照上述方式构造分类器的问句特征维数很大,SVM能够处理高维特征,但是训练时间较长。 研究的总体安排与进度: 2010-20

您可能关注的文档

文档评论(0)

chengzhi5201 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档