8 文本信息结构化与可视化研究赵铁军.ppt

8 文本信息结构化与可视化研究赵铁军.ppt

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8 文本信息结构化与可视化研究赵铁军

文本信息结构化与可视化研究 赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004年7月12日·复旦大学 提纲 计算机理解自然语言的表现方式 结构化与图形化 分层次结构化的理解系统 文本信息结构化的若干研究 网页链接结构可视化 汉语动词次范畴化框架自动分析 跨语言结构转换—基于实例机器翻译 计算机理解自然语言的表现方式 人对自然语言的理解 行为反应 语言能力:问答/文摘/复述/翻译… … 显式或隐式地表达出语言的结构和意义:心理学家的看法—人的理解过程是从词的序列中建构起具有层次安排的命题 计算机对自然语言的理解 面向应用的NLP—上述2 对自然语言的多层次分析—上述3:自然语言的结构化表示 计算机理解自然语言的表现方式 多层次的语言结构表示—语言理解系统 计算机理解自然语言的表现方式 自然语言的可视化或图形化:另外一种理解方式 图像理解—自然语言化??文本理解—图形化 故事理解?动画 对语言信息处理结果的一些简单而实用的图形化:词或短语识别结果的反显 / 句法结构树形图 / 依存关系图 / 评分结果的直方图… … 强调视觉效果,增强技术可信性又增加趣味性 文本信息结构化的若干研究(1) 网页链接结构可视化 研究背景:挖掘特定专业领域(IT)网页信息关联—结构的可视化,富士通研究开发中心有限公司委托研究项目 研究意义:互联网获取相关信息数据库 / 相关信息跟踪 网页链接结构可视化 网页链接结构可视化 可视化效果 网页链接结构可视化 关键技术—信息抽取模板 例如:产品模板 产品名称 产品所属公司名称 产品所属类别 产品相关的事件(如:推出、投放) 事件发生地点 事件发生时间 … … 其他如:财务模板/人物模板/技术模板… … 网页链接结构可视化 关键技术—特征词识别/二元关系确定 特征词表 名实体关系识别规则 类别权重 规则形式(从训练语料中自动获取) if [PN]{verbin}[Com][Post] then Pn-In:PN; Cur-Com:Com; Cur-Post:Post; 网页链接结构可视化 结果示例 中国联通董事长变更 杨贤足去职王建宙接任 Pn-In:王建宙 Cur-Com:中国联通 Cur-Post:董事长 Pn-out:杨贤足 Pre-Com:中国联通 Pre-Post:董事长 文本信息结构化的若干研究(2) 汉语动词次范畴化框架自动分析 研究背景:国家自然科学基金项目 研究目标:建立汉语动词次范畴化词汇知识库,服务于汉语文本信息自动处理技术的需要—文本信息结构化的一个层次 汉语动词次范畴化框架(SCF)形式化描写:五元组=V, TA, NA, PA, CL 其中V谓语动词集合 / TA论元类型集合(11种)/ NA相应谓语动词支配论元个数 / PA相应论元在SCF中的相对位置 / CL广义句法形态常量(“着了过”等6个) 汉语动词次范畴化框架自动分析 实现过程:获取→应用 获取过程 学习SCF预设集合:43000简单句(词典例句+人民日报语料),1774动词→非完整句法分析→生成原始SCF预设集合→统计过滤→获得SCF预设集合并计算相应概率分布 / 结果138个SCF框架 从大规模真实文本中自动获取汉语动词SCF:6个月人民日报语料库,3558动词→句法分析结果为输入→错误校正→模式提取→SCF生成→假设检验 汉语动词次范畴化框架自动分析 大规模自动获取结果 汉语动词次范畴化框架自动分析 成果:SCF知识库,动词总数=3502 汉语动词次范畴化框架自动分析 汉语动词次范畴化框架自动分析 应用:SCF分析过程 / 输入=句法分析器输出,输出=句子SCF框架 示例 我们/r 要/vz 坚持/vg 解放/vg 思想/ng AP[实事求是/i 的/usde ]BNP[思想/ng 路线/ng ]。/ 坚持: r vz vg vg ng AP BNP 坚持: NP v VP VO[花/vg BNP[BMP[二\百\/m 元/q ]人民币/ng ]]便/c 能/vz VO[欣赏/vg BNT[这里/s 一/m 年/q ]]的/usde 双/m 休/vg 日/q NP[下午/t 的/usde 歌剧/ng ]表演/vg 。/ 花: VO vg BNP c vz VO vg BNT usde m vg q NP vg 花: NP v NP VP 汉语动词次范畴化框架自动分析 应用检验(初步):提高汉语句法分析精度,短语级精确率提高了5.36%,

您可能关注的文档

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档