- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
精品 第六章 中文信息处理 概 述 精品 一、中文信息处理 《计算机科学技术百科全书》(清华大学出版社,1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理分为汉字信息处理与汉语信息处理两部分 中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。 精品 参考文献 《中文信息处理技术——原理与应用》,李宝安等,清华大学出版社,2005年7月第1版 《中文信息处理技术教程》,朱巧明,清华大学出版社,2005年版 《计算语言学概论》,俞士汶主编,商务印书馆,2003年9月第1版 《计算语言学》,刘颖,清华大学出版社,2002年版 中国语言文字网/ 精品 精品 中文信息处理 中文信息处理分为汉字信息处理与汉语信息处理两部分 信息的两个层次:符号层 —— 中文 / 汉语 / 汉字内容层 —— 符号所承载的意义 中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等) 精品 符号层的信息处理 拼音文字:小字符集 —— 比较容易 非拼音文字:大字符集 —— 难度很大 汉字是一个大字符集 《说文解字》(东汉):9353字 《玉篇》(南朝)收录16,917字 《广韵》(宋代)收字26,194字 《字汇》(明朝)收录33,197字 《康熙字典》(清朝)收录47,043字 《汉语大字典》(1992年)5.6万 《中华字海》( 1994年) 8.6万 拉丁字母只有26个符号 斯拉夫字母只有33个符号 阿尔明尼亚字母只有38个符号 泰米尔字母只有36个符号 缅甸字母只有52个符号 泰文字母只有44个符号 老挝字母只有27个符号 藏文字母只有35个符号 韩文字母只有24个符号 日文假名只有48个符号 精品 符号层的信息处理 汉字输入 自动输入 键盘输入 字形识别 声音识别 手写体识别 印刷体识别 在线手写 脱机手写 整字键盘 通用键盘 主辅式 感应式 形码 音码 形音结合码 1 2 3 4 5 6 7 8 9 精品 内容层的信息处理 原文 原文输入 译前编辑 词法分析 句法分析 语义分析 语境分析 内部表示转换 译词选择 译后编辑 译文输出 词形变化 句子生成 译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程 需要语言知识!!! 精品 中文信息处理的现状和发展趋势 现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/……内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索 精品 二、文字信息处理的基本问题 文字信息的计算机处理过程 要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。 文字信息的输入 文字信息的处理 文字信息的输出 精品 二、文字信息处理的基本问题 文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。 在英文信息中,以26个字母作为文字信息处理的单位,因此要对26个字母逐个地确定代替它的数码。 汉字一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。 这一数码统称为代码(code) 在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。 精品 二、文字信息处理的基本问题 英文字符的编码标准是ASCII码,即美国信息交换标准代码。这是七位的二进制代码,它是美国国家标准学会(ANSI)为计算机的信息交换提出的标准,后来由国际标准组织(ISO)确定为国际标准字符编码。 为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即GB1988。其中除了将货币符号置换为人民币符号外,其他都与ASCII码相同。 精品 计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码,输入到计算机的内存中。 经过编辑的文本仍然以ASCII码表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。 汉字信息的计算机处理过程与英文信息处
您可能关注的文档
- 世界上的学问虽然很多,但只有三门最重要的学问:医学、文培训课件.ppt
- 东方的世界西方的上海培训课件.ppt
- 两基-资料建设有关问题(供参考)培训课件.ppt
- 两汉的政治经济制度培训课件.ppt
- 两眦疾病培训课件.ppt
- 两证整合培训培训课件培训课件.ppt
- 个人资讯安全守则培训课件.ppt
- 个性与行为培训课件.ppt
- 中华传道会刘永生中学培训课件.ppt
- 中南林业科技大学培训课件.doc
- 专题06 经济体制(我国的社会主义市场经济体制)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题11 世界多极化与经济全球化-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 专题03 经济发展与社会进步-5年(2020-2024)高考1年模拟政治真题分类汇编(浙江专用)(解析版).docx
- 专题09 文化传承与文化创新-5年(2020-2024)高考1年模拟政治真题分类汇编(北京专用)(原卷版).docx
- 5年(2020-2024)高考政治真题分类汇编专题08 社会进步(我国的个人收入分配与社会保障)(原卷版).docx
- 专题07 探索世界与把握规律-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 5年(2020-2024)高考政治真题分类汇编专题06 经济体制(我国的社会主义市场经济体制)(原卷版).docx
- 专题11 全面依法治国(治国理政的基本方式、法治中国建设、全面推进依法治国的基本要求)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题17 区域联系与区域协调发展-【好题汇编】十年(2015-2024)高考地理真题分类汇编(解析版).docx
- 专题01 中国特色社会主义-5年(2020-2024)高考1年模拟政治真题分类汇编(原卷版).docx
最近下载
- 13套题,必过,阿坝州拟任科级领导干部任职资格政治理论考试题汇总.pdf
- 2023年关于医药领域腐败问题全面集中整治自查自纠报告与医院开展医疗领域群众身边腐败作风问题专项整治工作总结【两篇】.docx VIP
- 高中语文必修二课件--念奴娇·赤壁怀古.ppt VIP
- 高中化学选修三全套.pptx VIP
- 中国特色社会主义理论体系的形成的历史条件.ppt VIP
- 领导讲话稿写作方法和技巧.ppt
- 高中:原创语文《反对党八股》(定稿).pptx VIP
- 液压升降机油路图液压升降机毕业设计.doc VIP
- 《管理学原理》全套课后习题答案(大学期末复习资料).docx
- 高中课件:原创语文《反对党八股》公开课课件.pptx VIP
文档评论(0)