工学博士学位论文 汉语句法歧义消解的统 - 哈尔滨.ppt

工学博士学位论文 汉语句法歧义消解的统 - 哈尔滨.ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
工学博士学位论文 汉语句法歧义消解的统 - 哈尔滨.ppt

主要内容 自动文摘概述 文摘概述 主要的自动文摘技术 自动文摘步骤 文本分析 文本转换 文摘生成 文摘评估方法 中文自动文摘研究现状 多文档自动文摘系统 国外研究现状 多文档系统需要做的工作 系统设计 自动文摘应用领域 自动文摘概述 文摘定义 Luhn,1958 内容提取、压缩、用户的需求 多种学科高度交叉的应用,涉及领域:自然语言处理,信息检索,图书馆学,统计学,认知心理学和人工智能 摘要行为研究 表层特征,篇章结构,规范的成分 自顶向下 研究方法 基于知识的方法 基于统计学方法 主要的自动文摘技术 基于浅层分析 对文档中所蕴含的一些浅层的特征进行统计与分析,将其中某些特征按特定的量化模型结合起来作为文档信息的量化度量,据此选择出文档核心内容。对于文档的浅层分析通常不需复杂的文档内部表示,能划分出文摘提取时的基本单元即可。 基于实体分析 实现实体层的分析要先把文档转化成内部表示的形式,分化出文档的各个实体并建立起文档实体间的相互关系,通过对文档实体及其相互关系建模,有助于确定个实体对于表述文档内容的作用。 基于话语结构 主要对全文的宏观结构建模 结构包括:文档格式 、用于区分文本主题的线索 、文体结构如议论文或者说明文的结构特征。 自动文摘步骤 文本分析:寻找最能代表原文内容的成分 转换:通过摘录或概括的方法压缩文本 生成摘要:重组原文内容,生成摘要 文本分析 -- 信息选取和泛化 -- 转换为文摘语言 原文表示 文摘表示 图1:自动文摘的处理过程 文本分析 文本转换 内容选择和泛化 。相关信息的选择与原文的话语结构密切相关 。泛化, 把信息压缩为更抽象的形式 选择和泛化多文档内容 。用户对信息的侧重决定文摘对对每篇文档信息的选择 要求能将多篇文档中的异同点分别提取出来泛化 对新闻报道中的同一件事或一系列事采用多角度观察,分析文本片断中人物言语变化等信息差异,来确定多文档文摘所要提取信息。 以单词的重叠、语义的联系为依据,从多文档中提取相似文本单元生成文摘的方法 文摘生成 取决于用户对文摘形式的要求 理想文摘涉及文本生成技术 目前实用的文摘系统只是将原文中抽取的片段和句子稍加修改和润色 去冗余, 短句扩充, 确定文摘输出顺序 影响文摘连贯性的问题 主要问题是首语重复和不明指代 其它的层次关联关系可能影响由抽取句子所得到的文摘的可读性 原文中的图表及插入成分在作文摘时要省略 原文中重复性、并列性成分,及短句扩充 文摘评估方法 摘要比较 内部评价方法: 。与系统的目的相关,通过直接分析摘要的质量来评价 。按信息的覆盖面和正确率来评价文摘质量,一般采用与“理想摘要”相比较的方法。 外部评价方法: 。与系统的功能相应,将文摘应用于某一特定任务中,根据摘要功能提高此项任务的效果来评价文摘系统的性能 如对比采用摘要进行检索与原文进行检索的准确度,来确定是否可以利用摘要来代替原文 。 中文自动文摘研究现状 上海交通大学,王永成教授,80年代末 1992,中文文献的自动摘要模型系统 CAES 1997年研制了OA中文文献自动摘要系统 OA关键技术 仿人 :构造关键词词典; 从文献有关部位中自动摘取包含关键词词典中的词的句子作为候选文摘句,并根据其中包含的词典词的个数、相距远近、句子在文中的部位等信息加权,再根据文摘长度要求选取权值较大的作为文摘句 ; 对文摘句排序、润色生成文摘 网上:中英文自动摘要系统演示 东北大学,80年代末,姚天顺教授和香港城市理工大学联合开展“中文全文自动摘要系统”研究 系统采用脚本知识表示,通过与用户交互获取文摘 * 北京邮电大学,钟义信教授, 全信息理论 1997, 面向计算机病毒方面的Glance系统 文摘框架为核心 2000,基于理解的、面向神经网络学习算法领域的Ladies自动文摘系统 基于多Agent技术的自动文摘系统,2000 系统流程图: 词语语用信息

文档评论(0)

书屋 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档