PDF等文档中文字和CAD图形的识别提取.pdf

PDF等文档中文字和CAD图形的识别提取.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PDF等文档中文字和CAD图形的识别提取

PDF等文档中文字和CAD 图形的识别提取 陆仁钉 适用于:PDF、CAJ和图像转电子版文档;PDF 中CAD 图形提取; (一)文本识别 PDF 的文字提取和编辑需要用到Adobe 的专业软件Acrobat,该软件可完成 PDF 的所有操作。 如果不安装Acrobat,或是需要识别其他类似扫描件的文字对象,可使用其 他OCR软件。 OCR ,全称Optical Character Recognition,即光学字符识别技术。 常用的OCR软件有: 一、CAJ Viewer6.0:国产CAJ格式的阅读器,可识别包括PDF在内的多种文件 格式(见下图),准确率良好。 菜单栏-工具-文字识别(点击下拉箭头全部展开才能看见),识别后可选择 复制到剪贴板或发送到WPS/WORD。 CAJ Viewer支持的格式: 二、Microsoft Office Document Imaging 微软官方的Office组件,office2003默认安装,2007版本需要在安装选项 中手动选中; 已安装的office2007可在控制面板的程序卸载页选择,进行更改,展开 office工具选项后在Microsoft Office Document Imaging上点击选 “安装全 部程序”; Microsoft Office Document Imaging安装完成即可在office工具下找到 并打开,如下图; 支持的格式:mdi和tiff或tif,但mdi不能直接打开,双击打开时会提示 不是有效的win32应用程序。 mdi不能直接双击打开报错: MicrosoftOfficeDocument Imaging安装后同时也作为虚拟打印机(image writer)使用,在识别图像或文档格式前,需将其打印为mdi或tiff;若要在 发送到 Word 的所选内容中包括图片,请选中 “在输出时保持图片版式不变”复 选框,但效果一般不好,需要图片时可框选后右键 “复制图像”。 常见问题: 开始OCR识别时 “Microsoft Office Document Imaging已停止。 出现了 一个问题,导致程序停止工作,请关闭程序!” 解决:安装相应补丁,下载链接: /share/link?shareid=449973uk=3609309728 或:/s/1AeZ4U (解压文件后,全部复制到此位置,全部替换: C:\Program Files\Common Files\Microsoft Shared\MODI\12.0 三、其他OCR软件: 汉王PDF OCR、尚书七号、清华紫光OCR9.0、丹青以及赛酷等。 (二)PDF 中CAD 图形提取 1.条件:由CAD 图形文件(.dwg)打印的PDF等文档,可以识别图形并逆向生成 dwg,但截图和扫描等原理得到的图像不适用。 2.方法:以PDF2CAD为例,下载PDF2CAD (大小约5MB)→安装→打开→添加PDF →设置目标位置→转换→生成dxf→在AutoCAD等绘图软件中打开dxf→编辑图 形→存为dwg。 3.注意: 注意如果PDF稍大,数十页以上且含图片,将会生成数百个文件; 转化得到的图形是完全分解的元素,一般生成两个图层,包括文字在内的所 有对象都由线条构成。 类似的小插件较多,也可尝试其他的。 ☺PDF2CADV6.0下载链接: /s/1c0DyEsC ☺其他链接: Adobe Acrobat: /s/1y9C30 Office2007: /s/1eQEG48a

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档