c#读取pdf文件里面数据！！

请问如何在c#中抽取pdf的内容，或者将pdf的text转换成doc也行，我用过pdfbox，但不支持中文。itextsharp，好像不能读取内容，arcopdf.dll... 请问如何在c#中抽取pdf的内容，或者将pdf的text转换成doc也行，我用过pdfbox，但不支持中文。itextsharp，好像不能读取内容，arcopdf.dll，里面全是接口，根本不知道怎么用，还有些别的东东，好像是用c写的，看不懂！真的没办法了，大家帮帮忙，谢谢！

可以加我QQ29028636 教我怎么搞！
或者有示例的程序可以发送我的邮箱 liang044@126.com 展开

 我来答

5个回答

#热议# 不吃早饭真的会得胆结石吗？

葡萄城控件
2019-01-10 · 全球控件行业领导者、微软金牌合作伙伴

葡萄城控件

向TA提问

关注

展开全部

你可以试一下 Grapecity Documents For PDF。这是一款.NET PDF 文档API，适用于所有 .NET Standard 2.0 及以上标准的平台，以编码的方式，无需 Adobe Acrobat 组件，超快批量处理 PDF 文件，满足关于 PDF 文档的一切需求。网页链接

这里是Grapecity Documents For PDF 的使用指南，里面有关于加载、分析、修改现有 PDF 文档的具体方法网页链接

Grapecity Documents For PDF 最大的特色总结如下：

产品架构灵活、轻量

轻量级产品架构可节省系统处理 PDF 时占用的内存和时间。与同类产品相比，GrapeCity Documents for PDF 可用于生成更高质量的 PDF 文档。

完全兼容 Adobe PDF

GrapeCity Documents for PDF 符合 Adobe PDF 1.7 规范，可在不影响 PDF 文档功能和设计的情况下，完成创建、编辑、存储、合并、拆分等多种功能。

全文本支持

GrapeCity Documents for PDF 支持 PDF 文档的所有文本和段落格式，同时还支持特殊字符、多种语言（包括中文）、RTL 格式、垂直拆分和旋转文本。

100 种以上的 PDF 功能

使用 GrapeCity Documents for PDF，您可以随意添加、删除、拷贝、移动、保护、更改页面大小、方向、转换为线性化 PDF 以及压缩 PDF 文件。

全面支持 .NET 平台

GrapeCity Documents for PDF 支持所有 .NET 平台，并允许您在应用程序中与 .NET Core 2.0 +、.NET Framework、Mono、Xamarin.iOS 和 Xamarin.Android 一起使用。

将应用程序部署到云端

GrapeCity Documents 可用于云应用程序开发，使用 NuGet 和 GrapeCity Documents for PDF，您可直接部署到百度云、阿里云、腾讯云、Azure 和 AWS 中。

简单来说，使用 GrapeCity Documents for PDF 可以轻松实现：

可生成线性化 PDF 文档，通过 Internet 更快地进行查看
用代码生成、加载、编辑、合并/拆分大型 PDF 文档
支持多种语言（如中文）、特殊字符以及 RTL 格式
支持 100 种以上的 PDF 功能
其他核心功能网页链接

已赞过 已踩过<

评论收起

深圳市微转数智网络科技..

广告2024-11-30

pdf转word，，可实现在线PDF转Word/Excel/PPT操作，快速便捷地将PDF文件转换成其它格式，支持多种文件格式，批量操作，一键轻松转换，转换后可保留所有页面排版及元素

www.wechangepdf.com

匿名用户
推荐于2017-12-16

展开全部

可以实现数据转成 PDF 
和把PDF转成html输出 
但是没做过读取的 

Response.ContentType = "Application/pdf"; 
string filePath = Server.MapPath("Table.pdf"); 
Response.Write(filePath); 
Response.End(); 
这是输出的

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

raymondchans
2013-08-14

知道答主

回答量：58

采纳率：0%

帮助的人：14.6万

我也去答题访问个人页

关注

展开全部

PdfReader pdfReader = new PdfReader("d:\\good.pdf");
int pageNumber = pdfReader.NumberOfPages;
string text = PdfTextExtractor.GetTextFromPage(pdfReader, pageNumber);
MessageBox.Show(text);

itextsharp.dll的！！！！！

已赞过 已踩过<

评论收起

Office文档开发
2018-03-05 · 专注文档开发的码字君

Office文档开发

采纳数：47 获赞数：66

向TA提问私信TA

关注

展开全部

提取PDF文本和图片的话可以用Free Spire.PDF(社区版)来操作，下面分别是提取文本内容和提取图片内容的代码，供参考：

一、提取PDF文本

//实例化一个PdfDocument对象
PdfDocument doc = new PdfDocument();
//加载PDF文档doc.LoadFromFile("测试文档.pdf");
//实例化一个StringBuilder 对象
StringBuilder content = new StringBuilder();
//提取PDF所有页面的文本
foreach (PdfPageBase page in doc.Pages)
{
 content.Append(page.ExtractText());
}
//将提取到的文本写为.txt格式并保存到本地路径
String fileName = "获取文本.txt";
File.WriteAllText(fileName, content.ToString());

二、提取PDF图片

//加载PDF文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile("测试文档.pdf");
List ListImage = new List();

for (int i = 0; i < doc.Pages.Count; i++)
{
    // 实例化一个Spire.Pdf.PdfPageBase对象
    PdfPageBase page = doc.Pages[i];

    // 获取所有pages里面的图片
    Image[] images = page.ExtractImages();
    if (images != null && images.Length > 0)
    {
        ListImage.AddRange(images);
    }
}
// 将提取到的图片保存到本地路径
if (ListImage.Count > 0)
{
    for (int i = 0; i < ListImage.Count; i++)
    {
        Image image = ListImage[i];
        image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);
    }
}

三、PDF转Word

(另外，你想直接把PDF转成Word的话也可以参考我下面的demo，同样也是用这个控件来做的)

//初始化PdfDocument实例
PdfDocument doc = new PdfDocument();
//加载PDF文档
doc.LoadFromFile("sample.pdf");
//保存为Doc格式文档
doc.SaveToFile("toWord.doc", FileFormat.DOC);