第四章数字文本与文本处理.pptVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章数字文本与文本处理

第四章 数字文本与文本处理 山东省数字媒体重点实验室 山东经济学院计算机科学与技术学院 山东省数字媒体重点实验室 山东经济学院计算机科学与技术学院 Shan dong Economics University 第一节 字符编码 在计算机中,英文采用ASCII码 英文 文字的编码 中文 1. 汉字的输入编码 数字编码:用数字代表汉字字符,电报码、区位码都属于数字编码 字音编码:指按照汉字的标准化读音,使用拼音作为汉字的编码的方法 字形编码:是指用汉字的形状表示的编码方式。这种编码方式将汉字依笔划、偏旁、部首用数字或字母编码,然后根据其组成方式依次输入 形音编码:将汉字字音与字型相互结合的一种编码方法如全息码就是一种音形编码。 文字的编码 2. 汉字的机内编码 汉字的机内编码是用于汉字信息的存储、交换、检索等操作的机内代码,一般采用两个字节表示。 汉字交换码:指在不同汉字信息处理系统之间进行汉字交换时使用的编码。汉字交换码也称汉字国标码-GB2312 3. 汉字的输出编码 用点阵表示的汉字字形代码,汉字的输出形式 。 汉字区位码:国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。 汉字的输入编码、汉字内码、字模码是计算机中用于输入、内部处理、输出三种不同用途的编码,不要混为一类。 OCR(Optical Character Recognition 光学符号识别),是指将一份文字稿件以图像形式输入给计算机,计算机取出每个文字的图像,再将其转换成汉字的编码存入计算机,以达到汉字输入的目的。OCR技术解决的是已存在于纸介质上的文字如何被计算机识别并接收的问题。由于是对扫描后的图像文件进行识别处理,所以称为脱机汉字识别系统。 第二节 文本输入技术 文本输入 手写识别 语音识别 光学字符识别 (OCR技术) 键盘输入 非键盘输入 第三节 文本编辑与处理 文本编辑 文本编辑的主要功能 对字、词、句、段落进行添加、删除、修改等操作 字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等 段落的处理:设置行距、段间距、段缩进、对称方式等 页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等 “所见即所得”(What You See Is What You Get, 简称 WYSIWYG):一方面所有的编辑操作效果立即可以在屏 幕上看到,另一方面在屏幕上看到的效果与打印机的输出 结果相同。 文本处理 文本处理的内容 字数统计,字频统计,简/繁体相互转换,汉字/拼音相互转换 词语排序,词语错误检测,文句语法检查 自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换 文本压缩,文本加密,文本著作权保护 关键词提取,文摘自动生成,文本分类 文本检索(关键词检索、全文检索),文本过滤 文语转换(语音合成),文种转换(机器翻译) 篇章理解,自动问答,自动写作等 文本处理软件 数字编码是指用数字代表汉字字符,电报码、区位码都属于数字编码。数字编码的特点是输入时无重码,计算机内部处理时容易转换为内码,但是由于每个汉字都用一串数字表示难于记忆。 字音编码是指按照汉字的标准化读音,使用拼音作为汉字的编码的方法。这种编码的特点是简单易学,但是由于汉字同音字大多,必然出现重码,这就影响了录入速度。为了减少重码,在全拼的基础上又提出了各种基于拼音的输入编码,如双拼编码、简拼编码以及各种智能编码。 字型编码是指用汉字的形状表示的编码方式。这种编码方式将汉字依笔划、偏旁、部首用数字或字母编码,然后根据其组成方式依次输入。常用的字型编码有表形码和著名的五笔字型输入等。其特点是专业录入人员录入速度快。 音形编码是将汉字字音与字型相互结合的一种编码方法。这种编码方法集中了二者的优点,具有编码短、重码少的优点,如全息码就是一种音形编码。 如果1个汉字在屏幕显示时占用2个西文字符宽度,而标点符号占用1个西文字符宽度,称为半角。如果1个汉字在屏幕显示时占用2个西文字符宽度,而标点符号同样也占用2个字符宽度称为全角。 OCR(Optical Character Recognition 光学符号识别),是指将一份文字稿件以图像形式输入给计算机,计算机取出每个文字的图像,再将其转换成汉字的编码存入计算机,以达到汉字输入的目的。OCR技术

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档