找回密码
 立即注册
首页 业界区 业界 国产化PDF处理控件Spire.PDF教程:在 Java 中将 PDF 转 ...

国产化PDF处理控件Spire.PDF教程:在 Java 中将 PDF 转换为 CSV(轻松提取 PDF 表格)

轩辕琳芳 8 小时前
1.png

在处理以 PDF 格式存储的报告、发票或数据集时,开发人员常常需要在电子表格、数据库或分析工具中复用其中的表格数据。一个常见的解决方案是 使用 Java 将 PDF 转换为 CSV,因为 CSV 文件轻量、结构化,并且几乎在所有平台上都兼容。与文本或图片导出不同,PDF 转 CSV 的核心是 从 PDF 中提取表格并保存为 CSV
E-iceblue旗下Spire系列产品,是文档处理领域的佼佼者,支持国产化信创借助 Spire.PDF for Java,可以检测 PDF 中的表格结构,并通过少量代码实现自动化导出。本文将逐步讲解如何借助Spire.PDF for Java 在 Java 中完成 PDF 到 CSV 的转换——从环境搭建,到表格提取,再到处理多页文档或单页多表等复杂情况。
Spire.PDF for Java免费试用下载,请联系E-iceblue官方授权代理商慧都科技
加入Spire技术交流QQ群(125237868),与更多开发者一起提升文档开发技能。
Java PDF 转 CSV 的环境搭建

在使用 Java 提取表格并转换为 CSV 之前,需要先搭建开发环境。这包括选择合适的库并将其添加到项目中。
为什么选择 Spire.PDF for Java

由于 PDF 文件本身不支持直接导出为 CSV,因此通过代码提取表格是更现实的做法。Spire.PDF for Java 提供了检测 PDF 文档中表格结构并直接保存为 CSV 的 API,使转换过程更简单高效。
安装 Spire.PDF for Java

如果使用 Maven,可以添加以下配置:
  1. <repositories>
  2.     <repository>
  3.         <id>com.e-iceblue</id>
  4.         <name>e-iceblue</name>
  5.         <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
  6.     </repository>
  7. </repositories>
  8. <dependencies>
  9.     <dependency>
  10.         <groupId>e-iceblue</groupId>
  11.         spire.pdf</artifactId>
  12.         <version>11.8.3</version>
  13.     </dependency>
  14. </dependencies>
复制代码
如果没有使用 Maven,可以直接 下载 Spire.PDF for Java 安装包,并将 JAR 文件添加到项目的 classpath 中。
Spire.PDF for Java免费试用下载,请联系E-iceblue官方授权代理商慧都科技
加入Spire技术交流QQ群(125237868),与更多开发者一起提升文档开发技能。
从 PDF 提取表格并保存为 CSV

将 PDF 转换为 CSV 最实用的方法就是表格提取。使用 Spire.PDF for Java,可以通过以下步骤完成:

  • 加载 PDF 文档
  • 使用 PdfTableExtractor 检测页面中的表格
  • 按行收集单元格内容
  • 将结果写入 CSV 文件
下面的 Java 示例展示了完整的转换流程:
Java 示例代码:PDF 转换为 CSV
  1. import com.spire.pdf.*;
  2. import com.spire.pdf.utilities.*;
  3. import java.io.*;
  4. public class PdfToCsvExample {
  5.     public static void main(String[] args) throws Exception {
  6.         // 加载 PDF 文档
  7.         PdfDocument pdf = new PdfDocument();
  8.         pdf.loadFromFile("Sample.pdf");
  9.         // 用于存储提取文本的 StringBuilder
  10.         StringBuilder sb = new StringBuilder();
  11.         // 遍历每一页
  12.         for (int i = 0; i < pdf.getPages().getCount(); i++) {
  13.             PdfTableExtractor extractor = new PdfTableExtractor(pdf);
  14.             PdfTable[] tableLists = extractor.extractTable(i);
  15.             if (tableLists != null) {
  16.                 for (PdfTable table : tableLists) {
  17.                     for (int row = 0; row < table.getRowCount(); row++) {
  18.                         for (int col = 0; col < table.getColumnCount(); col++) {
  19.                             // 安全处理 CSV 字段
  20.                             String cellText = escapeCsvField(table.getText(row, col));
  21.                             sb.append(cellText);
  22.                             if (col < table.getColumnCount() - 1) {
  23.                                 sb.append(",");
  24.                             }
  25.                         }
  26.                         sb.append("\n");
  27.                     }
  28.                 }
  29.             }
  30.         }
  31.         // 写入 CSV 文件
  32.         try (Writer writer = new OutputStreamWriter(
  33.                 new FileOutputStream("output/PDFTable.csv"), "UTF-8")) {
  34.             writer.write(sb.toString());
  35.         }
  36.         pdf.close();
  37.         System.out.println("PDF 表格已成功导出为 CSV。");
  38.     }
  39.     // 处理 CSV 字段的工具方法
  40.     private static String escapeCsvField(String text) {
  41.         if (text == null) return "";
  42.         // 去掉换行
  43.         text = text.replaceAll("[\\n\\r]", "");
  44.         // 特殊字符处理
  45.         if (text.contains(",") || text.contains(";") || text.contains(""") || text.contains("\n")) {
  46.             text = text.replace(""", """");  // 转义双引号
  47.             text = """ + text + """;          // 添加引号
  48.         }
  49.         return text;
  50.     }
  51. }
复制代码
代码讲解


  • PdfDocument:将 PDF 文件加载到内存
  • PdfTableExtractor:逐页检测表格
  • PdfTable:提供对行和列的访问
  • escapeCsvField():去掉换行并处理特殊字符
  • StringBuilder:拼接单元格内容,使用逗号分隔
  • 最终结果写入 Output.csv,可直接在 Excel 或任意编辑器中打开
运行代码后生成的 CSV 文件示例:
2.png

Spire.PDF for Java免费试用下载,请联系E-iceblue官方授权代理商慧都科技
加入Spire技术交流QQ群(125237868),与更多开发者一起提升文档开发技能。
处理复杂的 PDF 转 CSV 场景

实际应用中,PDF 文件常常包含多个表格、跨多页,或表格结构不规则。下面介绍如何应对这些情况。
1. 单页包含多个表格

extractTable(i) 返回的 PdfTable[] 包含该页中检测到的所有表格,可以将每个表单独保存为不同的 CSV 文件:
  1. for (int i = 0; i < pdf.getPages().getCount(); i++) {
  2.     PdfTableExtractor extractor = new PdfTableExtractor(pdf);
  3.     PdfTable[] tableLists = extractor.extractTable(i);
  4.     if (tableLists != null) {
  5.         for (int t = 0; t < tableLists.length; t++) {
  6.             PdfTable table = tableLists[t];
  7.             StringBuilder tableContent = new StringBuilder();
  8.             for (int row = 0; row < table.getRowCount(); row++) {
  9.                 for (int col = 0; col < table.getColumnCount(); col++) {
  10.                     tableContent.append(escapeCsvField(table.getText(row, col)));
  11.                     if (col < table.getColumnCount() - 1) {
  12.                         tableContent.append(",");
  13.                     }
  14.                 }
  15.                 tableContent.append("\n");
  16.             }
  17.             try (Writer writer = new OutputStreamWriter(
  18.                     new FileOutputStream("output/Tables/Table_Page" + i + "_Index" + t + ".csv"), "UTF-8")) {
  19.                 writer.write(sb.toString());
  20.             }
  21.         }
  22.     }
  23. }
复制代码
示例:将单页的多个表格导出为独立 CSV 文件:
3.png

2. 跨页或大表格

如果表格跨越多页,可以逐页提取并 追加写入,以避免覆盖:
  1. StringBuilder sb = new StringBuilder();
  2. for (int i = 0; i < pdf.getPages().getCount(); i++) {
  3.     PdfTableExtractor extractor = new PdfTableExtractor(pdf);
  4.     PdfTable[] tables = extractor.extractTable(i);
  5.     if (tables != null) {
  6.         for (PdfTable table : tables) {
  7.             for (int row = 0; row < table.getRowCount(); row++) {
  8.                 for (int col = 0; col < table.getColumnCount(); col++) {
  9.                     sb.append(escapeCsvField(table.getText(row, col)));
  10.                     if (col < table.getColumnCount() - 1) sb.append(",");
  11.                 }
  12.                 sb.append("\n");
  13.             }
  14.         }
  15.     }
  16. }
  17. FileWriter writer = new FileWriter("MergedTables.csv");
  18. writer.write(sb.toString());
  19. writer.close();
复制代码
示例:将跨多页的大表格合并为一个 CSV 文件:
4.png

3. 格式限制

CSV 只能存储纯文本,像合并单元格、字体、图片等格式会丢失。如果需要保留样式,可以导出为 Excel(.xlsx)。
4. CSV 特殊字符处理

在写入 CSV 时,逗号、分号、双引号、换行等特殊字符可能会破坏文件结构。 上述 Java 示例中的 escapeCsvField 方法可以去除换行并安全转义。
更复杂的场景下,可以使用 Spire.XLS for Java,通过简单的 Java 代码将表格数据写入 Excel,再将 Excel 工作表保存为 CSV,无需手动处理特殊字符。
总结

在 Java 中将 PDF 转换为 CSV,本质上就是 提取表格并保存为结构化格式。CSV 文件轻量、通用,非常适合存储和分析表格数据。通过搭建 Spire.PDF for Java 环境并参考本文示例代码,即可实现自动化转换,减少手动操作并提高效率。
常见问题

Q: 可以把 PDF 转换为 CSV 吗?

A: 可以。虽然图片和带格式的文本无法导出,但表格数据可以提取并保存为 CSV。
Q: 如何在 Java 中从 PDF 提取数据

A: 使用 Spire.PDF for Java 等 PDF 库,可以解析文档、检测表格并导出为 CSV 或 Excel。
Q: 最好的 PDF 转 CSV 工具是什么?

A: 对于 Java 开发者来说,Spire.PDF for Java 等代码级解决方案比手动转换工具更灵活高效。
Q: 如何使用 Java 将 PDF 转换为 Excel?

A: 步骤与导出 CSV 类似,不同之处在于将数据保存为 Excel 格式,以便支持更多功能。
Spire.PDF for Java免费试用下载,请联系E-iceblue官方授权代理商慧都科技
加入Spire技术交流QQ群(125237868),与更多开发者一起提升文档开发技能。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

相关推荐

您需要登录后才可以回帖 登录 | 立即注册