有用过tesseract OCR字符识别的吗?怎么识别率那么低
3个回答
展开全部
识别率低是因为tesseract 想做到适应各种字体、各种分辨率,结果就造成了识别率低的尴尬局面。
要想识别率高的话,可以采用abbyy finereader是ocr(光学辨识)软件。比较常用的功能为:扫描到 Word、将PDF图像、图片转换为 Word 文档或者可编辑可搜索的PDF文档,另外也支持将PDF图像转换为 Excel 文档。
OCR 识别是肯定会存在错误的,所以识别转换完成以后记得要和原文核对。 设置语言种类的话,越少识别率越高,就是说如果文件只有中文的话,那么就设置中文一种语言,不要选择其他语言,这样识别速度也会提高。
要想识别率高的话,可以采用abbyy finereader是ocr(光学辨识)软件。比较常用的功能为:扫描到 Word、将PDF图像、图片转换为 Word 文档或者可编辑可搜索的PDF文档,另外也支持将PDF图像转换为 Excel 文档。
OCR 识别是肯定会存在错误的,所以识别转换完成以后记得要和原文核对。 设置语言种类的话,越少识别率越高,就是说如果文件只有中文的话,那么就设置中文一种语言,不要选择其他语言,这样识别速度也会提高。
展开全部
识别率低是因为tesseract 想做到适应各种字体、各种分辨率。要在工程中用的话,可以先用tesseract 识别,再根据错误类型二次识别。根据我的经验,tesseract 的错误还是比较有规律的
本回答被网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
如果图像清晰,但识别效果差,那可能是因为图像像素不够,ReSize后再识别会明显提升识别率,我这边测试单个字符占用像素>30,字符清晰不会出错。其它答案都是有用的废话
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询