RPA在财经中的应用课件 chapter7：OCR文字识别自动化.pptx

下载文档

0
0
约5.64千字
约 32页
2025-01-24 发布于山东
举报
版权申诉
保障服务

RPA在财经中的应用课件 chapter7：OCR文字识别自动化.pptx

1、本文档共32页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

OCR文字识别自动化

OCR光学字符识别（OpticalCharacterRecognition，简称OCR），是指对包含文本资料的图像文件进行分析识别处理，获取文字及版面信息的技术。20世纪90年代以来，随着平台式扫描仪的广泛应用以及办公自动化的普及，OCR技术的识别正确率、识别速度不断提高，更好地满足了用户的需求。UiBot不但提供了原生的OCR功能模块，还接入了第三方的OCR服务，更是在MageAI产品中提供了丰富的文字识别功能，极大地方便了用户的选择与使用。

12MageAI文字识别命令发票信息登记机器人

01MageAI文字识别命令通用文字识别通用表格识别通用多票据识别通用卡证识别验证码识别印章识别自定义模板识别

MageAIUiBotMage（智能文档处理平台）基于OCR、NLP等前沿深度学习算法，提供了文档的识别、分类、要素提取、校验、对比、纠错等功能，可帮助企业实现日常文档处理工作的自动化。Mage提供丰富的预训练的AI模型，使用者无需AI经验，开箱即用。Mage的AI能力可分为预训练AI能力和定制化AI能力。预训练AI能力提供了开箱即用的AI能力，能够处理身份证、银行卡、发票、火车票识别等普适场景的识别和抽取需求；定制化AI能力需要用户上传自己的数据，通过无代码的方式，标注、训练、测评、优化AI模型，使模型能够理解专业领域的文档。

MageAI定制化程度能力用途预训练AI能力通用文字识别识别图片中所有文字。通用表格识别识别图片中的表外文字和表内文字，并按照单元格的排列顺序，输出表格内容。通用多票据识别识别普通发票、专用发票、电子发票、销货清单、卷式发票、出租车票、火车票、动车票、飞机行程单、定额发票、购车发票等全票种发票，并返回核心字段值。通用卡证识别识别银行卡、身份证、社保卡、驾驶证、行驶证、户口本、护照、结婚证、房产证、不动产证、营业执照、开户许可证、组织机构代码证、车辆合格证、车辆登记证、基本存款账户信息，并返回核心字段值。验证码识别识别由数字和字母组成的验证码。印章识别识别印章的位置、颜色、内容。定制化AI能力自定义模版上传一组版面样式相对固定的图片文件，通过配置规则的方式，依赖位置关系抽取到业务需要的字段值。

MageAI在UiBotCreator中使用MageAI文字识别服务，需要进行Mage配置。MageAI服务也是一种付费服务。

通用文字识别窗口文字识别“鼠标点击文本”、“鼠标移动到文本上”、“查找文本位置”三个命令使用UiBotMage对窗口范围内进行指定文字识别，其功能与使用与本地“鼠标点击OCR文本”、“鼠标移动到OCR文本上”、“查找OCR文本位置”三个命令类似。

通用文字识别屏幕文字识别“屏幕文字识别”使用命令时，需在屏幕上选择目标，并指定识别范围。下图所示命令在识别屏幕窗口指定识别范围内的文字，识别结果为一个JSON对象。通过JSON阅读器，可查看其结构。

通用文字识别“图像文字识别”使用命令时，需指定待识别的图像，支持jpeg、jpg、png、bmp、tif、tiff等格式。图片文字识别

通用文字识别“PDF文字识别”需指定待识别的PDF文件路径、文件访问密码，是否识别全部页。如果不识别全部页，还需指定页码。页码支持正整数和数组格式，如输入2，则识别第2页；如输入[1,3,5]，则识别第1,3,5页；如输入[1,[6,9],4]，则识别1,4页和第6到第9页。当识别全部页码设为是，则识别指定页码的输入失效。超出PDF页码总数的部分会报错，页码重叠部分仅识别1次。PDF文字识别

通用文字识别“屏幕文字识别”、“图像文字识别”、“PDF文字识别”命令返回的是一个JSON对象，该对象列出了文本的结构，包括page、paragraph、row。UiBot提供了一系列获取文本信息的命令来获取文本的上述信息：“获取全部文本”命令获取通用文字识别结果的全部文本。“获取段落文本”命令获取通用文字识别结果按段落划分的全部文本。“获取每行文本”命令获取通用文字识别结果按行划分的全部文本。“获取所有文本元素”命令获取文字识别结果按文本元素划分的全部文本。获取文本信息

通用表格识别屏幕表格识别通用表格识别命令识别图片中的表外文字和表内文字，并按照单元格的排列顺序，输出表格内容。图像表格识别PDF表格识别“屏幕表格识别”、“图像表格识别”、“PDF表格识别”命令使用UiBotMage，分别识别指定屏幕范围、图像、PDF文档中的多个表格，识别结果返回JSON格式。

通用表格识别获取表格信息获取表格信息命令从屏幕、图像、PDF表格识别命令返回的识别结果中获取相关信息。获取非表格文字、获取所有表格、获取表格数、获取指定表格命令执行前，先要通过“屏幕表格识别”、“图像表格识别”

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

RPA在财经中的应用课件 chapter7：OCR文字识别自动化.pptx