- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文通OCR文通数据录入工厂讲训
TH-OCR 2005 文通数据录入工厂 培训内容 一、软件系统简介 二、图像扫描简介 三、操作流程 四、详细操作 五、纵向校对编辑器 六、原式原样编辑器 七、其他工具 一、软件系统介绍 1.系统组成 2.技术性能 3.系统操作流程图 4.系统安装与卸载 5.系统配置及管理 1、系统组成 OCR 识别: 将图象文件进行识别,转化为电子文档。这是本系统的核心。 高效校对: 利用横向校对及纵向校对手段对识别后所得的电子文档进行校对改错。 版面还原: 将电子文档以用户所需的格式(HTML、PDF、JDA、RTF、XLS、TXT 等)导出在相应的应用软件中,可实现图文结合(TXT 格式除外),进行原式原样的编辑,并可调整、丰富版面信息,使生成最佳的版面。 辅助工具: 包括版面拼接及字符位置等工具。便于用户根据需要对所得电子文档进行编改。 2、技术性能 适用操作系统及运行环境 1)Windows 2000 和 Windows XP 等操作系统。 2)网络环境。 识别字体 1)印刷体的文字,包括简(繁)体多体汉字、纯英文、日文、韩文、汉英混排文本。 2)手写汉字。 使用内码 1)支持中文 GB、BIG5 及 GBK 内码; 2)支持日文 JIS 及 Shift-JIS 内码; 3)支持韩文 KSC 内码。 对图象适应性 黑白二值、256 级灰度及 24 位彩色图象。 输出格式 PDF、HTML、RTF、XLS 等标准格式 3、流程图 4、系统安装与卸载 过程略 5、系统配置及管理 该系统是基于网络环境下工作的系统,软件及随软件配置的加密锁应安装在与网络连接的同一台计算机上,并以该机作为“TH-OCR 2005 文通数据录入工厂”系统的主机,管理同网使用该系统的其它若干台计算机。 如果由于特殊原因,需将软件安装在一台独立的(与其它计算机无网络联系的)计算机上时,必须保证该机装有网卡,且操作系统处于网络状态。 在启动本应用程序之前,必须保证正确的加密锁已连接在计算机上。 当投入系统的机台数目已达到加密锁规定的用户数时,如其它的机台欲再加入本系统,将出现下列提示:“Too many users”——当前的登陆请求超过了可同时运行应用程序的站点数,此时管理机应根据需要对各机台是否进行工作进行调度。 二、图像扫描规定 1、准备工作 2、扫描 3、图片的命名规则 4、图片处理 1、准备工作 准备要扫描的图书、期刊、论文等资料 将准备好的资料编号,如00201 扫描前的处理:拆分 2、扫描 两类扫描仪:高速扫描仪、平板扫描仪 保存格式: 黑白图片保存成*.tif,彩色图保存成*.jpg。 封面文件和封底文件 封面文件必须,封底文件可有可无。 3、图片的命名规则 图书内容文件 格式:图书代码+序号,tif 封面和封底 格式:图书代码_fm.jpg或图书代码_fd.jpg 目录文件 格式:图书目录_ml.txt 4、图片处理 对扫描后的图片进行处理 去黑边 纠偏 去黑点 三、ocr操作流程 1、系统设置 2、新建工程,获取所要识别工程的图象 3、图象版面处理 4、识别及修改 5、识别结果导出 四、详细操作 见说明书 五、纵向校对编辑器 横向校对 传统的校错方法是人工逐字逐句比较识别结果与原始图象,找到错误的地方并修改。 纵向校对 相对于横向校对,按字校对。 详细操作见说明书。 六、原式原样编辑器 JDAEdit 的功能是把 TH-OCR 2005 软件的识别结果原式原样地显示出来(以及对应的原始图象),便于用户对不满意的地方进行修改,最后生成通用格式的电子文档。 JDAEdit 的特点是能够准确重构原始图象,对于保持原样的报纸、书刊电子化极其有用。 详细操作见说明书。 七、其他工具 1、 HTML 超文本文件编辑器 2、版面拼接 3、字符位置 4、TIFF2PDF 编辑器 5、PDF2TIFF 文件编辑器 2、版面拼接 在很多的时候,用户需要扫描的文件往往过大,而不能一次扫描完全,需把文件分割成几部分来分别扫描,得到不同部分的扫描图档,传统的方法是单个识别再把识别后的不同的部分进行整合,拼成一个完整的文件。在 TH-OCR 2005 软件中提供了一个在识别前,把各个不同部分的扫描图档进行版面拼接的功能模块【版面拼接】 操作见说明书。 3、字符位置 在 TH-OCR 2005 软件中新增了一个功能模块【字符位置】,如果用户不想使用 TH-OCR 2005软件的识别结果,【字符位置】功能模块提供了图象文件中每一字符的位置,以供用户使用。 详见说明书。 4、tiff2pdf工具 在 TH-OCR 2005 增强版中有一项重要功能:TIFF 文件直接转换成
文档评论(0)