第3章文本处理技术.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章文本处理技术

第3章 文本处理技术 本章概述 文本(Text)是多媒体信息最基本的表示形式之一,可以清楚、准确地表达思想,描述概念,叙述事实等。它是人们最熟悉的信息表示方式,例如,文章,书等都以文本形式出现。 文本的最显著的特点是在组织上是线性的和顺序的。在计算机系统中,文字和数值都是用二进制编码表示的,文字信息和数值信息统称为文本信息。 与其他媒体相比,文本是最容易处理、占用存储空间最少、最方便利用计算机输入和存储的媒体。 本章主要介绍了文本的基本知识,文本的获取及处理。 本章的学习目标 理解文本的基本知识 掌握常用的文本获取方法 熟练掌握文本的编辑 掌握电子图书的制作 主要内容 3.1 文字信息在计算机中的表示 3.2 文本的类型 3.3 获取文本信息 3.4 处理文本信息 3.5 本章小结 3.1 文字信息在计算机中的表示 文本是以文字和各种专用符号表达的信息形式,它是现实世界中使用的最多的一种信息存储和传递方式,主要用于对信息的描述性表示。 计算机系统通过指定的二进制编码来存储数字、字母和其它字符。因此,要想在计算机中表示文字信息,需要将文字用二进制编码的形式表示出来。 在计算机系统中,西文字符和汉字的编码方式是不同的。 3.1.1 西文编码 ASCII码 西文采用ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)表示,包括数字、字母、特殊符号等。 ASCII码用7位二进制数表示一个字符,共能表示27=128个不同的字符,包括了计算机处理信息常用的26个英文大写字母A-Z,26个英文小写字母a-z,数字符号0-9,算术与逻辑运算符号、标点符号等。 扩展ASCII码 国标码 我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB 2312-1980,是国家规定的用于汉字信息处理使用的代码依据,这种编码称为国标码。 由连续两个字节组成。在国标码字符集中共收录6763个常用汉字和682个数字和图形字符,其中一级汉字3755个,按拼音顺序排列,二级汉字3008个,按部首排列。 区位码 国标GB 2312-1980规定,所有的汉字与符号组成一个94×94的矩阵,在此方阵中,每一行称为一个“区”(区号为01~94),每一列称为一个“位”(位号为01~94),该方阵实际组成了一个94个区,每个区内有94位的汉字字符集,每一个汉字或符号在码表中都有一个唯一的位置编码,称为该字符的区位码。 国标码是由区位码稍作转换得到,其转换方法为:先将十进制区位码转换为十六进制的区位码,这样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。 输入码 汉字输入码是使用英文键盘输入汉字时的编码。目前,我国已推出的输入码有数百种,但用户使用较多的只有十几种。按输入码编码的主要依据大体可分为顺序码、音码、形码、音形码四类。 现在最普及的是拼音输入法(如紫光拼音、搜狗拼音等)和五笔输入法。如“刘”字,用全拼,输入码为码为“liu”,用五笔字型则为“yjh”。 需要指出的是,不管采用什么样的编码输入法(例如拼音、五笔字型等)来输入一个汉字,其机内码都是相同的。 3.1.3 Unicode编码 Unicode(统一字符编码标准,又叫万国码、单一码)是一种在计算机上使用的字符编码。从1990年开始,来自许多知名计算机公司的语言学家、信息专家和工程师携手合作,采用16位对多种文字文本和字符进行编码,最后形成了一个统一的编码方案,为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。 Unicode于1994年正式公布,Unicode标准中包含了超过18000个汉字(日本、中国和韩国使用的象形文字),以后的版本中还将包括一些生僻字,例如楔形文字、象形文字和古代汉字。此外,还保留了一些字符编码空间,用于用户的专门用途。 主要内容 3.1 文字信息在计算机中的表示 3.2 文本的类型 3.3 获取文本信息 3.4 处理文本信息 3.5 本章小结 3.2 文本的类型 无格式文本 格式文本 超文本 无格式文本 无格式的文本只存储文字信息本身,文字以固定的大小和风格输出,因而也称为纯文本,通常保存为.txt类型的文件。 一般使用简单的文本编辑软件即可进行编辑,如Windows操作系统中的“记事本”。使用“记事本”软件,用户无法定义文本格式和版面格式,只能进行最基本的文本和临时的简单格式处理。 由于是纯文本文件,所以这些简单格式不能随文字内容一起保存。 超文本

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档