怎样使用ABBYY finereader把PDF转成可编辑文件
1个回答
2017-11-03 · 为您提供更好的产品和服务
七彩虹科技有限公司
七彩虹科技成立于1995年,中国著名的DIY硬件厂商, 亚太区最重要的显示卡提供商之一。专注于IT硬件产品研发、生产和销售,致力于为个人和企业用户提供最具创新与实用价值的硬件产品及应用方案。
向TA提问
关注
展开全部
打开一个需要转换的PDF文件,然后看一下这个文件里面有几种语言,是不是有表格、图片等
然后运行ABBYY finereader 11,点击欢迎界面“文档语言”下拉选择中的更多语言,弹出“语言编辑器”界面,我们设置好PDF文件中所包含的几种语言。
因为文件文件中有C++语言的内容,而ABBYY finereader 中正好也有C++的选择,那么我们就毫不犹豫的打上勾。设置完毕,点击右下角的“确定”按键。
回到任务界面,我们是想把PDF转成可编辑的word文件,所以我们点击中间的“文件(PDF/图片)到Microsoft Word”一项
弹出文件选择窗口,选择需要转换的PDF文件,注意打开窗口的左下角那几个选项,默认都是打勾的,如果不需要的话可以去掉勾,然后点击“打开”按键。
ABBYY finereader开始加载文件,并且自动OCR识别处理。如果页数比较多的话,可能需要花费一些时间,需要耐心等待一下。
由于自动识别会有一些错误,那么我就可以用手动工具进行修正。我们可以选择不同的工具来修正,比如表格被识别成了普通文字,中间没有线框了,那么我们选择“表格”工具,然后把文件中的表格的区域选出来,然后右键“读取区域”就能够手动识别成表格了。还有如果带有文字的图片被自动识别成了文字了,那么我们可以选择图片工具选出页面中的图片区域,然后在你识别本页面其他部分文字的时候,这个区域就会被识别成图片了。
“编辑图像”按键是用来预处理扫描页图片的,因为扫描页有时候会有倾斜、对比度不好、变形等问题,那么先对图像修正一下可以大幅度提高识别的准确率,调整完以后点击右上角的“退出图像编辑器”按键就可以回到上一界面。
识别完毕以后,选择菜单来的“文件”---“将文档另存为”---“Microsoft Word文档”(如果你需要保存为其他格式你可以自己选择)。
弹出保存对话框,选择保存路径,如果需要保存完就打开文件的话,记得勾选下面的“保存后打开文档”选项,如果电脑配置不高的话不建议勾选此项,因为ABBYY finereader本身比较耗内存,然后再打开word的话电脑可能会比较卡。保存完文件,转换过程就基本结束了。
我们打开保存好的word文件,看看转换的效果怎么样。识别的区域基本上正常,中文英文、图像都可以识别出来,版面略微有些错位,不过还是含有部分错误,我们需要自己修改一下,但是这个已经可以大大降低我们的录入强度了。
注意事项
OCR识别是肯定会存在错误的,所以大家识别转换完成以后记得要和原文核对。
设置语言种类的话,越少识别率越高,就是说如果文件只有中文的话,那么就设置中文一种语言,不要选择其他语言,这样识别速度也会提高。
ABBYY finereader理论上可以转换非加密的任意PDF文件,但是如果扫描件的分辨率或者清晰度比较差的话,那么是不能被正确识别转换的。
ABBYY finereader 进行识别的时候比较耗内存,如果你的文件页数比较多的话,那么建议使用配置较高的电脑进行识别转换处理。
然后运行ABBYY finereader 11,点击欢迎界面“文档语言”下拉选择中的更多语言,弹出“语言编辑器”界面,我们设置好PDF文件中所包含的几种语言。
因为文件文件中有C++语言的内容,而ABBYY finereader 中正好也有C++的选择,那么我们就毫不犹豫的打上勾。设置完毕,点击右下角的“确定”按键。
回到任务界面,我们是想把PDF转成可编辑的word文件,所以我们点击中间的“文件(PDF/图片)到Microsoft Word”一项
弹出文件选择窗口,选择需要转换的PDF文件,注意打开窗口的左下角那几个选项,默认都是打勾的,如果不需要的话可以去掉勾,然后点击“打开”按键。
ABBYY finereader开始加载文件,并且自动OCR识别处理。如果页数比较多的话,可能需要花费一些时间,需要耐心等待一下。
由于自动识别会有一些错误,那么我就可以用手动工具进行修正。我们可以选择不同的工具来修正,比如表格被识别成了普通文字,中间没有线框了,那么我们选择“表格”工具,然后把文件中的表格的区域选出来,然后右键“读取区域”就能够手动识别成表格了。还有如果带有文字的图片被自动识别成了文字了,那么我们可以选择图片工具选出页面中的图片区域,然后在你识别本页面其他部分文字的时候,这个区域就会被识别成图片了。
“编辑图像”按键是用来预处理扫描页图片的,因为扫描页有时候会有倾斜、对比度不好、变形等问题,那么先对图像修正一下可以大幅度提高识别的准确率,调整完以后点击右上角的“退出图像编辑器”按键就可以回到上一界面。
识别完毕以后,选择菜单来的“文件”---“将文档另存为”---“Microsoft Word文档”(如果你需要保存为其他格式你可以自己选择)。
弹出保存对话框,选择保存路径,如果需要保存完就打开文件的话,记得勾选下面的“保存后打开文档”选项,如果电脑配置不高的话不建议勾选此项,因为ABBYY finereader本身比较耗内存,然后再打开word的话电脑可能会比较卡。保存完文件,转换过程就基本结束了。
我们打开保存好的word文件,看看转换的效果怎么样。识别的区域基本上正常,中文英文、图像都可以识别出来,版面略微有些错位,不过还是含有部分错误,我们需要自己修改一下,但是这个已经可以大大降低我们的录入强度了。
注意事项
OCR识别是肯定会存在错误的,所以大家识别转换完成以后记得要和原文核对。
设置语言种类的话,越少识别率越高,就是说如果文件只有中文的话,那么就设置中文一种语言,不要选择其他语言,这样识别速度也会提高。
ABBYY finereader理论上可以转换非加密的任意PDF文件,但是如果扫描件的分辨率或者清晰度比较差的话,那么是不能被正确识别转换的。
ABBYY finereader 进行识别的时候比较耗内存,如果你的文件页数比较多的话,那么建议使用配置较高的电脑进行识别转换处理。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询