- 1、本文档共12页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多媒体技术与培训课件制作技术
多媒体课件素材,大致可以分为文本、图形、图像、音频(声音)、视频、动画等几种主要形式。
第一章 文本素材的获取与处理
一、常见文本文件的格式
目前流行的文字处理软件种类繁多,不同的软件生成的文件格式各不相同。当使用不同的文本编辑软件编辑文本时,系统通常会采用默认的文本文件格式来保存文档。如字处理软件MicroSoft Word XP/2003的默认文档格式为DOC ,当然该软件还支持另外一些流行的文本文件格式。如TXT 、RTF等等。下面是比较流行的文本文件格式:
1.TXT格式:是纯ASCII码文本文件,纯文本文件除了换行和回车外,不包括任何格式化的信息,即文件里没有任何有关文字字体、大小、颜色、位置等格式化信息。
2.WRI格式: 是Windows系统下的写字板应用程序所支持的文件格式。
3.DOC格式: 是Microsoft Word字处理软件所使用的默认文件格式,其中可以包含不同的字符格式和段落格式。
4.RTF格式:是Rich Text Format文件格式,是一种可以包含文字、图片和热字(超文本)等多种媒体的文档。
5.WPS格式:是金山中文字处理软件的格式,其中包含特有的换行和排版信息,称为格式化文本,通常只在WPS编辑软件中使用。
二、文字素材的采集
文本信息输入、采集的方法主要有以下几类:
1.键盘输入方法
键盘输入文本的优点是方便快捷,易修改并且不需附加录入设备,缺点是由于使用键盘输入文字通常需要理解和记忆对应的中文输入法的编码规则,因此输入速度较难提高。
2.语音输入方法
语音输入法,是将声音通过话筒输入计算机后直接转换成文字的一种输入方法。利用语音识别技术,计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。
3.联机手写识别输入
手写输入法是一种用特制的感应书写笔,在与计算机接口相连的手写板上书写文字来完成文本输入的方法。它符合人们用笔写字的习惯,只要将手写板接入计算机,在手写板上按平常的习惯写字,电脑就能将其识别显示出来。
4.扫描仪+OCR识别输入法
在实际办公中,如果需要进行大量文字录入,如书稿,资料等,仍用手工录入,无疑会浪费许多时间,用扫描转换的方法,可以大大加快文字录入速度,提高工作效率。利用OCR技术,我们可以把需要的教材、文件、资料等进行扫描转换,生成电子文档,更便于保存。
OCR是光学字符识别技术的英文缩写。扫描仪+OCR识别输入就是将印刷品类纸张上的文字以图像的方式扫描到计算机中,再用OCR软件将图像中的文字识别出来,并转换为文本格式的文件。它要求把要输入的文稿首先通过扫描仪转化为图像后才能识别,所以,扫描仪是OCR技术中必须的配置。如果被扫描的原稿印刷质量越高,识别的准确率就越高,一般最好是印刷体的文字,比如图书、杂志等,如果原稿的纸张较薄,那么有可能在扫描时纸张背面的图形、文字也透射过来,干扰最后的识别效果。需要注意的是,扫描仪本身并没有文字识别功能,它只能将文稿扫描到计算机中后以图片的方式保存,文字识别则由OCR软件处理完成。
三、OCR文字识别过程
扫描仪+OCR识别输入法能将纸介文件转换为电子文档,通常需要经过文稿扫描、版面处理、文字识别、文字编辑几个阶段。下面以中晶科技的扫描仪Microtek ScanMaker 4100和尚书七号OCR识别软件为例,构建一个扫描、文字识别系统。利用该系统扫描文字图像并将文字图像转换为电子文档的操作过程是:
= 1 \* GB3 ① 按照扫描仪的说明书,将计算机和扫描仪连接好,并安装相应的驱动程序、图像扫描程序Microtek ScanWizard 5 和尚书七号OCR软件。
文字识别工作区
文件管理区
工具栏
菜单栏
文字识别工作区
1-1尚书七号OCR系统窗口
= 2 \* GB3 ② 双击Windows桌面上的“尚书七号OCR”快捷方式图标,启动尚书七号OCR程序,如图1-1所示,与其它高档品牌的扫描仪一样, Microtek ScanMaker 4100扫描仪在其配置的图像扫描程序Microtek ScanWizard 5中,本身也包含了直接对文字稿件的OCR识别功能,但由于文档识别率较低,因此采用了与扫描仪匹配的第三方OCR文字识别软件。
图2-3设置系统参数
图1-2扫描图像的来源
= 3 \* GB3 ③ 打开菜单栏上〖文件〗菜单,执行“选择扫描仪…”命令,打开图1-2所示的“选择来源”对话框,选定对应扫描仪型号的驱动程序选项。再选择〖文件〗菜单,执行“系统配置…”命令,打开图2-3所示的“设置系统参数”对话框,并在获取新图像面板上选择识别语言为“中文简体”,按下【确定】按钮,配置完成。注意:选择的识别语言要根据被识别的文字图像上的文字内容而定,如果为纯
您可能关注的文档
- 甘肃省卓尼县卡车沟防洪工程监理规划教材.doc
- 东海大桥第一标段测量施工方案教材.doc
- 东海县2013年中小学生田径运动会筹备方案教材.doc
- 公园植物说明有图教材.doc
- 甘蔗种植机毕业设计说明书教材.doc
- 东华大学高频电子电路通信电子电路课件7-7教材.doc
- 杆塔防雷系统可行性教材.doc
- 功率电子实验指导教材.doc
- 东华大学思想政治理论课实践教学书教材.doc
- 功率方向继电器实验讲稿教材.doc
- GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 中国国家标准 GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs).pdf
- 《GB/T 39560.10-2024电子电气产品中某些物质的测定 第10部分:气相色谱-质谱法(GC-MS)测定聚合物和电子件中的多环芳烃(PAHs)》.pdf
- GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- 中国国家标准 GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 中国国家标准 GB/T 39560.302-2024电子电气产品中某些物质的测定 第3-2部分:燃烧-离子色谱法(C-IC)筛选聚合物和电子件中的氟、氯和溴.pdf
- GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样.pdf
- 《GB/T 39560.2-2024电子电气产品中某些物质的测定 第2部分:拆解、拆分和机械制样》.pdf
- 《GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯》.pdf
- 中国国家标准 GB/T 39560.303-2024电子电气产品中某些物质的测定 第3-3部分:配有热裂解/热脱附的气相色谱-质谱法(Py/TD-GC-MS)筛选聚合物中的多溴联苯、多溴二苯醚和邻苯二甲酸酯.pdf
文档评论(0)