- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PDF格式文件怎样转化成DOC格式文件
PDF格式文件怎样转化成DOC格式文件
法一:
直接采用软件,比较好的有solidconverpdf,scansoft.pdf.converter.v1.0。用scansoft.pdf.converter时,当采用以word文档打开的方式时,scansoft.pdf.converter会自动弹出询问是否转化。校园网ftp也有相关的软件,并且是破解版。
不过经过试验,发现这些软件对只有是源文件是pdf的文件的转化效果较好,如果源文件是其他格式,而转化为pdf的,则无法正常转化,只能将文件以内嵌图片的方式转化,也就是说在word文件中是图片的形式。
法二:
1、先将PDF转为图片:可用:“Galcott PDF Converter”软件将PDF转为图片格式
HYPERLINK /SoftView/SoftView_17738.html \t _blank /SoftView/SoftView_17738.html
2、再用OCR软件识别、校对:
推荐使用“汉王OCR2.5”
HYPERLINK ftp://software@0/pic/hwdoc.rar \t _blank ftp://software@0/pic/hwdoc.rar
虽然汉王巳出了5300、5800、6800,但真正完全破解的只有汉王OCR2.5,用它的批文件处理模式可进行自动识别,然后再校对。
3、输出到文本:
完成识别校对后,可用我先前发的“OCR助手”软件 HYPERLINK /personal/wyx/download/OCRPlus.exe \t _blank /personal/wyx/download/OCRPlus.exe
删除多余的换行符并合并导出为单个文本文件。
4、在WORD中作最后的修饰。
注:此法引述段老师课堂段老师的说法,本人由于没找到相关软件没有成功。
如果是原文件非pdf格式,可用此法,首先确定你是否安装了Office 2003中的Microsoft Office Document Imaging组件,如果没有,使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“Office 工具 Microsoft DRAW转换器”
第二步,打开转化好的pdf文件,点打印按钮,此时office的虚拟打印机会自动弹出对话框,如果有多个虚拟打印机,则选择Microsoft Office Document Image writer.然后会成生一个MDI文件,并且自动打开,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。如果配置较低却是比较费时,大概会有十分钟左右,2M的文件。这一步完成后会自动弹出word对话框,并且询问以何种方式打开,不理它,按默认的方式打开即可,因为识别率较低,所以接下来就是在word中手工操作了。
pdg格式转doc格式虽然超星本身带有OCR识别功能,但是太垃圾,只能识别简单的字。
所以这个比较复杂,没有直接的软件,至少我还没找到,思路是先转为pdf格式,然后转为doc格式:
其中第一步:pdg转pdf格式,建议用pfdFactory,这是个虚拟打印机,首先在超星中将文件打开,点击图书—打印,输入页数,然后确定,接下来就会出现一个选择虚拟打印机的对话框,当然选pfdFactory,完成后文件会自动打开,这里只是预览,记得要保存。需要注意的一点是,当pdg文件中有空白页时,pfdFactory会停止不动,我也没搞清是怎么回事。
第二步,当然是由pdf转换为doc了,可以采用上边已经叙述的方法。我是用我个人实践的方法的,主要的缺陷是有不少乱码,第二是超星文本中有些文字扫描的不是很清晰,所以容易出错,不过整体上来说文本的转化没有丢太多东西。
现在网上的许多资料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接编辑。网上提供了许多处理这种情况的软件,但是它们不是效率低,就是只能提取其中部分文本。本文所述利用微软提供的OCR识别技术从CAJ、PDF等文件中提取全部文本的方法,简便快捷,效率很高。
从不同格式的文件中提取文本前需要做好以下准备工作,安装CAJViewer5.5浏览器软件和acrobat 5 专业版浏览器软件安装Office2003,并完全安装Of?鄄fice工具Microsoft Office Document Imaging,然后在打印机里面会增加Microsoft Office Document Image Writer打印机。 Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格。
一、CA
文档评论(0)