中文信息处理ChineseInformationProcessing.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文信息处理ChineseInformationProcessing.ppt

中文信息处理--绪论 中文信息处理 Chinese Information Processing 张宇 哈尔滨工业大学计算机科学与技术学院 zhangyu@ir.hit.edu.cn 主要教材 朱巧明,李培峰,吴娴,朱晓旭等编著。中文信息处理技术教程,清华大学出版社。2005年9月第一版 Christopher D.Manning,Hinrich Schutze。统计自然语言处理基础,电子工业出版社。2005年1月第一次印刷 主要内容 信息处理 中文信息处理 计算机中文信息处理主要研究对象 现代汉语的特点 中文信息处理的发展 中文信息处理技术发展问题的探讨 信息 控制论创始人(维纳 Norbert Wiener) 信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。 信息论奠基者(香农 Clause Shannon) 信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值 Robert M. Losee 信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息 信息的分类 按照计算机处理的信息形式 文本信息 多媒体信息 超媒体信息 按照信息的结构化程度 结构化信息 半结构化信息 非结构化信息 按照信息的必威体育官网网址程度 公开信息 一般必威体育官网网址信息 绝密信息 信息处理 信息处理就是对信息的接收、存储、转化、传送和发布 信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等; 信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理; 信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理; 信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地; 信息的发布:把信息通过各种表示形式展示出来。 中文信息处理 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 《计算机科学技术百科全书》 清华大学出版社,1998 计算机中文信息处理主要研究对象 汉字键盘输入技术 汉字输出技术 软件汉化技术 汉字字形识别技术 汉语语音识别技术 激光照排技术 中文平台 文本分类 信息检索 汉字键盘输入技术 汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术 汉字编码 采用四位十进制数把常用的汉字用“0”—”9”十个数字按照次序进行编码 四角码(字形码) 用“0”—”9”十个数字键对汉字的四个角的形状进行编码 机内码 用2字节、3字节、4字节来表示一个汉字的机器内部码 国际标准化组织(ISO)、Unicode联盟以及IEEE下属的专门委员会研究制订的字符编码标准 汉字输出技术 汉字输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式,并送输出设备输出 汉字字库 点阵字库 GB5199.1-2001和GB5007-2001是典型的16点阵和24点阵字库 矢量字库 采用矢量的方法,对每个汉字信息用一组矢量进行描述 软件汉化技术 软件汉化是把西文软件直接改造成中文软件的一种技术 西文操作系统汉化成中文操作系统 内核汉化 外挂汉化 西文应用软件经过汉化后能够具备处理中文的能力 界面的汉化 应用程序中中文的通行 汉字字形识别技术 汉字识别技术是利用计算机技术对汉字静态图形和动态汉字信息进行特征提取,与预先存储在计算机内的标准汉字特征信息进行匹配,并选择符合特征的汉字作为所需识别的汉字内码 联机识别 脱机识别 汉字字形识别过程 汉字识别前处理 汉字分类和判别 汉字识别后处理 汉语语音识别技术 汉语语音识别技术是自然语言处理的一个重要组成部分,包括语音的识别、处理、合成等 语音识别的过程 语音识别单元的选取 特征参数提取技术 模式匹配及模型训练技术 激光照排技术 激光照排,即电子排版系统 1946年,美国人发明了手动光学照相排版机 20世纪60年代,德国人制造了阴极射线管式照排 1975年,英国人开始了激光照排的研究 1974年8月,国家设立了748工程 中文平台 中文平台是指处理中文信息的软件系统的集合,包括支持中文的系统软件、支撑软件和应用软件 汉化平台:西文系统上外挂一层软件,使系统可以接收和输出汉字 API平台:操作系统提供有关中文信息处理所需要的一套API接口 中文平台:在API平台上再增加一些典型的与中文信息处理有关的应用软件工具或产品 文本分类 文本分类是一种确定文章所属类别的情报分析方法 基于词的归类技术 基于知识的归类技术 基于信息的归类技术 信息检索 文本检索包括了文本信息的存储、组织、表现、查询及存取等各个方面 索

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档