- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
尚书7号使用说明
系统使用快速入门
通过阅读本文,您可以初步了解该软件系统的结构、使用流程以及一些有效的设置。
第一节 系统安装
将安装光盘放入计算机的光盘驱动器中,直接运行程序setup.exe,根据安装向导的提示,就可以完成安装操作。
第二节 选择扫描仪
第一次使用扫描仪或者更换扫描仪时,都需要安装和设置扫描仪驱动程序。请先按照扫描仪使用手册上的步骤正确安装扫描仪驱动程序,然后打开本系统主程序,在应用程序界面内,单击“文件”菜单中的“选择扫描仪”命令,选择相应的扫描仪,如图:
第三节 系统设置
单击“文件”菜单中的“系统配置”命令,进入系统设置界面,设置扫描任务的语言及彩色图片的保存格式。如下图:
支持的扫描任务语言有:中文简体、简繁混合、纯英文等。
如果选中“灰度彩色图像总存为JPG”,那么扫描时,系统会自动将灰度、彩色图像文件保存成JPG格式;如不选中该项,图像文件格式是根据用户在“扫描到”窗口中的设定(图像名后缀)来保存的。此设置只对灰度、彩色图像有效。
如果选中“识别”页中的“自动倾斜校正”,在自动版面分析时,系统会自动校正倾斜的图像文件。如下图:
第四节 操作流程简介
一、获取图像:
有两种方式获取图像,扫描图像或打开计算机中已经存在的图像文件。本系统支持24位彩色、256级灰度和二值黑白图像。
扫描图像之前应设置好保存扫描图像文件的路径、图像文件名、图像文件名后缀。设置图像路径,可以直接在 窗口中键入路径名,或单击 按钮,在浏览路径窗口中选定路径。
图像名的命名规则为: 若干位字母前缀+3位数字,3位数字的范围从000到999,每扫描一幅图像后系统会自动在数字尾数加1,如图像名前缀取“hw”,图像名数字尾数取“003”,图像名后缀取tif,则当前图像名为hw003.tif,下一幅图像名自动改为hw004.tif;如果当前图像名尾数达到最大值,如hw999.tif,则下一幅图像名自动改回为hw000.tif,所以相同路径下相同文件名前缀的文件数最多为1000幅。
如果扫描过程中弹出“此文件已存在,是否该文件?”bmp,tif,jpg 三种图像格式,一般情况下,黑白二值图像保存为tif格式,灰度彩色图像保存为jpg格式将占用较少的硬盘空间。例如,C:\hwocr\image\hw003.tif是一个完整合法的图像文件名。
单击工具栏上的按钮或单击“文件”菜单中的“扫描”命令,通过扫描仪开始批量扫描文件;单击工具栏上的按钮或单击“文件”菜单中的“打开图像”命令,打开计算机中已经扫描好的图像文件(注意:图像文件所在路径必须是可写的)。
二、图像处理:
为提高识别率,对图像进行图像反白,自动倾斜校正,调整边框,去噪音(如麻点、下划线等),表格画线等处理。
三、版面分析:
单击工具栏中的按钮,或单击“识别”菜单中的“版面分析”命令,自动对图像的版面布局、内容进行分析理解,切分图像页,判别图像框的版面属性(横栏、竖栏、表格、图像),并以不同颜色的线框标识图像框属性。对分析错误的版面可以手动调整,HTML、XLS、TXT 格式的电子文档。
七、删除不再需要的数据文件:
系统在识别处理过程中生成一些数据文件,这些文件和相关的图像文件放在同一文件夹之下,这些文件以对应的图像文件名字命名而分别加上不同的后缀,包括 *.bki,*.pst,*.tmp。例如对于图像文件hw003.tif,对应生成的数据文件有hw003.tif.bki(不一定存在该文件),hw003.tif.pst,hw003.tif.tmp。当这些图像的识别结果不再需要时,用户可以使用Windows资源管理器删除这些文件。
第五节 使用技巧
1.如果用户从光盘上复制图像及数据进行进行处理,务必先将这些文件的只读属性去掉。
2.处理纯英文文档时,识别语言选项设定为“简体”、“简繁”、“英文”都可以,但设定为“英文”识别效果最好;当处理含有繁体字的文档时,语言选项应设定为“简繁”。
3.如果表格结构因为断线而识别错误,可以先用工具按钮中的画笔在图像上弥补断线再重新版面分析。
4.识别效果不佳的主要原因
(1) 扫描设置不当,扫描图像时的扫描分辨率(Resolution)一般应设为300dpi,如果文档字体较小则需要将扫描分辨率设定为更高值如400dpi或600dpi。缩放比例(Scaling)设为100%,亮度阀值(Threshold,Brightness)需根据纸张和印刷的质量调节,避免扫描图像过黑或过淡 。
(2) 如自动版面分析有错误,这时请用户用鼠标自己划分出正确的版面块;版面块的版式设置错误,如将横版的设置为竖版,竖版的设置为横版等,这时请用户自行将块的版式修改正确。
(3) 原稿印刷质量太差,笔画断裂严重、油墨太浓、字与字之间粘连严重等也可能使识别率显著降低。
(4
文档评论(0)