如何利用Python对PDF文件做OCR识别

 我来答

1个回答

#热议# 为什么说不要把裤子提到肚脐眼？

就烦条0o
2017-07-02 · 知道合伙人软件行家

就烦条0o
知道合伙人软件行家

采纳数：33315 获赞数：46492

从事多年系统运维，喜欢编写各种小程序和脚本。

向TA提问私信TA

关注

展开全部

1.安装tesseract
在不同的系统中安装tesseract非常容易。为了简便，我们以Ubuntu为例。在Ubuntu中你仅仅需要运行以下命令:
这将会安装支持3种不同语言的tesseract。
2.安装PyOCR
现在我们还需要安装tesseract的Python接口。幸运的是，有许多出色的Python接口。我们采用最新的一个：
3.安装Wand和PIL
在我们开始之前，还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。我们需要使用它来将PDF文件转换成图像：
我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。
4.热身
让我们开始我们的脚本吧。首先，我们需要导入一些重要的库：
注意：我将从PIL导入的Image模块改名为PI了，因为如果不这样做的话，它将和wand.image模块发生重名冲突。
5.开始
现在我们需要获得OCR库（在本例中，即tesseract）的句柄以及我们在PyOCR中将使用的语言：
我们使用tool.get_available_languages()里的第二种语言，因为之前我曾尝试过，第二种语言就是英语。
接着，我们需要建立两个列表，用于存储我们的图像和最终的文本。
下一步，我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧！
注意：将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。
wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象，并把它们加入到req_image序列中去。

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

【羽山数据】: 证照OCR 专业服务商

营业执照，身份证，护照，驾驶证，行驶证，银行卡各类证照OCR服务。羽山数据提供安全合规的AI服务。

www.yushanshuju.com广告

【羽山数据】图片转表格

OCR 表格识别是一款自动识别PDF，JPG，PNG等格式文档中的表格内容的AI技术，支持识别多种复杂表格并识别结果。支持银行流水、现金流量表、等多样式报表高精度识别。

www.yushanshuju.com广告

2024完整版文字识别软件-含完整资料-在线下载

wenku.so.com

如何利用Python对PDF文件做OCR识别

您可能关注的内容

其他类似问题

为你推荐：