我有100张文字图片,清晰的。想提取文字,用软件如何批量又准确?
是否有批量的提取的?但是版面分析不对,所以很麻烦,难道我要手动分析100张?而且提取出来还有乱码的,怎么办?图片排版像翻开的课本2页一起,竖排。。很需要软件,谢谢了...
是否有批量的提取的?但是版面分析不对,所以很麻烦,难道我要手动分析100张?而且提取出来还有乱码的,怎么办?图片排版像翻开的课本2页一起,竖排。。很需要软件,谢谢了
展开
3个回答
展开全部
楼主的问题要使用OCR软件解决。
第一,文字识别(即楼主所说文本提取)只能一页一页进行,批量识别没法控制准确率,可能为后续排版增加难度;
第二,版面分析也应逐页进行,尤其是必须逐页进行倾斜样正。存在版面错误也十分正常,稍做处理,不影响文字识别的进行;
第三,100张图片的文字识别工作量并不算大,大约1小时以内完全可以完成;
第四,画面清晰识别后乱码多,主要原因是版面问题,最常见的是倾斜校正不到位。处理乱码效率比较高的解决办法是批量搜索替换;
第五,识别后的文字应该以段为单位,而不是以行为单位,尤其是不能以栏为单位。之所以出现楼主所说问题,原因是版面分析和识别时设置有问题。对于分栏页,版面分析时应该准确地分析出来,否则后续处理就麻烦了。还有关于软件设置,一般应设置为自动取消软回车(非自然段换行),以及文本后续添加模式(不是一页一个文件)等等,注意琢磨并充分发挥软件的功能,识别效果会大大提高。
上述功能目前流行的识别软件都可以实现。祝顺利!
第一,文字识别(即楼主所说文本提取)只能一页一页进行,批量识别没法控制准确率,可能为后续排版增加难度;
第二,版面分析也应逐页进行,尤其是必须逐页进行倾斜样正。存在版面错误也十分正常,稍做处理,不影响文字识别的进行;
第三,100张图片的文字识别工作量并不算大,大约1小时以内完全可以完成;
第四,画面清晰识别后乱码多,主要原因是版面问题,最常见的是倾斜校正不到位。处理乱码效率比较高的解决办法是批量搜索替换;
第五,识别后的文字应该以段为单位,而不是以行为单位,尤其是不能以栏为单位。之所以出现楼主所说问题,原因是版面分析和识别时设置有问题。对于分栏页,版面分析时应该准确地分析出来,否则后续处理就麻烦了。还有关于软件设置,一般应设置为自动取消软回车(非自然段换行),以及文本后续添加模式(不是一页一个文件)等等,注意琢磨并充分发挥软件的功能,识别效果会大大提高。
上述功能目前流行的识别软件都可以实现。祝顺利!
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询