java 解析pdf表格
一种是一个项目对应一个需要填写的参数,一个是图二那种Java读取pdf中表格内容并将其封装成mappdf模板比较多,所以我没有选择按照固定区域读取,而是读取的全部,然后正...
一种是一个项目对应一个需要填写的参数,一个是图二那种
Java读取pdf中表格内容并将其封装成map
pdf模板比较多,所以我没有选择按照固定区域读取,而是读取的全部,然后正则匹配
这张图片是pdf中的最终需要的目标表格,最终就是左边的项目和右边的值。最终封装成map,我已经实现了
但是图二这种没有思路。
这个就要按照灯具名称来区分,例如:只要前位灯的项目和参数值,或者只要后位灯的,或者都要但是放在不同的map或者对象里。求大神们帮助 展开
Java读取pdf中表格内容并将其封装成map
pdf模板比较多,所以我没有选择按照固定区域读取,而是读取的全部,然后正则匹配
这张图片是pdf中的最终需要的目标表格,最终就是左边的项目和右边的值。最终封装成map,我已经实现了
但是图二这种没有思路。
这个就要按照灯具名称来区分,例如:只要前位灯的项目和参数值,或者只要后位灯的,或者都要但是放在不同的map或者对象里。求大神们帮助 展开
2个回答
展开全部
最近在帮公司做工具,需要读取PDF中表格的数据。网上查了,大部分PDFBox读取的代码都大致相同,一行一行从头读到尾。尝试读取PDF表格的人可能会遇到表格有空数据时,列与列就会对不齐,这样就不能很好地进行数据的处理了。网上看到一个例子,用iText坐标精确读取的例子,参考以后出现了亚洲语种字体不支持,添加了语言包iTextAsian.jar导入字体后,结果发现打印的都是空格无法处理。后找到了PDFBox坐标读取的方法,相当给力。在此过程中了解到有很多人遇到了我这样的问题。所以写下来望对现在还未解决问题还有以后遇到此问题的人提供帮助。
上代码:
package com.pdfbox.util.test;
import org.apache.pdfbox.exceptions.InvalidPasswordException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.util.PDFTextStripperByArea;
import java.awt.Rectangle;
import java.util.List;
public class ExtractTextByArea
{
上代码:
package com.pdfbox.util.test;
import org.apache.pdfbox.exceptions.InvalidPasswordException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.util.PDFTextStripperByArea;
import java.awt.Rectangle;
import java.util.List;
public class ExtractTextByArea
{
追问
这种网上的我都看过了
http://bbs.csdn.net/topics/392273018
我的具体问题是这个连接
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询