怎么用pdfBox从pdf文件中提取images

 我来答
nice山东草原狼

2017-10-18 · 好的设计人就是好同学
nice山东草原狼
采纳数:31655 获赞数:825124

向TA提问 私信TA
展开全部
1、我们需要PDFBox的Jar包,所以我们先在百度搜索一下“PDFBox”。点击“Apache PDFBox | A Java PDF Library”这个链接。

2、进入Apache PDFBox介绍页面,我们可以看到PDFBox可以实现这么多操作,我们这里只介绍如何提取文本,也就是第一项“Extract Text-Extract Unicode text from PDF files.”

3、然后我们点击左侧导航中的“Downloads”(下载),我们进入下载页面。
此时我们希望下载两个Jar文件,一个是“pdfbox-app-1.8.10.jar”,另一个是“fontbox-1.8.10.jar”,你可以发现还有一个“pdfbox-1.8.10.jar”,为什么不下载它呢?上面那个名称中含有“app”的Jar,它是功能最完整的,所以下载它比较好。

4、将下载的这两个Jar文件加到程序的libraries中。说一下步骤,右击工程-->选择“Build Path”-->"Configure Build Path...",弹出窗口,选择左侧导航中的“Java Build Path”,再选择“libraries”选项卡,点击“Add External JARs”,再选择上刚刚下载的那两个Jar文件,点击“OK”即可。

5、接下来就是写程序,程序代码如图所示,输入源文件“a.pdf”,然后把源PDF中的所有文本都生成到了“aa.txt”目标文件中了。

6、程序源代码:
import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import org.apache.pdfbox.pdfparser.PDFParser;import org.apache.pdfbox.pdmodel.PDDocument;import org.apache.pdfbox.util.PDFTextStripper;public class PdfExtracter { public PdfExtracter() { } public String GetTextFromPdf(String filename) throws Exception { String content = null; PDDocument pdfdocument = null; FileInputStream is = new FileInputStream(filename); PDFParser parser = new PDFParser(is); parser.parse(); pdfdocument = parser.getPDDocument(); PDFTextStripper stripper = new PDFTextStripper(); content = stripper.getText(pdfdocument); return content; } public static void main(String args[]) { PdfExtracter pf = new PdfExtracter(); try { String ts = pf.GetTextFromPdf("c:/a.pdf"); //System.out.println(ts); OutputStreamWriter osw = new OutputStreamWriter( new FileOutputStream("c:/aa.txt")); osw.write(ts); osw.flush(); osw.close(); } catch (Exception e) { e.printStackTrace(); } }}
匿名用户
2019-01-07
展开全部

可以提取PDF文件页面的,用PDF编辑工具来提取的


用PDF编辑器打开PDF文件,点击打开更多文件就可以了。


在文档下面找到提取页面,选择需要提取的页面。设置下参数

提取之后直接使用,不需要保存的

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式