通过apache tika从文档(pdf、doc、docx、txt)中提取特征数据

金娅鸣 发表于 2025-6-2 00:11:14

　　本文介绍如何通过apache tika从文档(pdf、doc、docx、txt)中提取特征数据，比如文档中有身份证、姓名等信息。【全部是经本人实际测试过的功能】
1、需引入相关pom依赖

   <dependency>
         <groupId>org.apache.tika</groupId>
         tika-core</artifactId>
         <version>2.8.0</version>
   </dependency>

   <dependency>
         <groupId>org.apache.tika</groupId>
         tika-parsers-standard-package</artifactId>
         <version>2.8.0</version>
   </dependency>

   <dependency>
         <groupId>org.apache.xmlbeans</groupId>
         xmlbeans</artifactId>
         <version>5.1.1</version>
   </dependency>
2、编写相关代码

package org.example.wordcontent;

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;

import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
* 通过apache tika从 pdf、doc、docx、txt中提取数据
* 核心依赖jar【tika-core 2.8.0、tika-parsers-standard-package 2.8.0(解析word时，需另外外依赖xmlbeans 5.1.1)】
* 假定文档中的内容具有下列属性:
* [授权人（签字）：张三
*身份证号码: 322025199902256056 ]
*待提取的内容为张三和 322025199902256056。张三和322025199902256056的值会变
*/
public class TikaExtrator {
public static void main(String[] args) {

   try {
         //// 替换为实际的PDF文件路径测试例子: 如测试.xlsx.
         InputStream input = TikaExtrator.class.getClassLoader().getResourceAsStream("综合信息查询授权书测试.docx");

         String text = extractTextFromFile(input);
         System.out.println("text: " + text);
         String name = extractName(text);
         String idNumber = extractIdNumber(text);
         System.out.println("授权人姓名: " + name);
         System.out.println("身份证号码: " + idNumber);
   } catch (IOException e) {
         e.printStackTrace();
   }
}

/**
*
* @param inputStream
* @return
* @throws IOException
*/
private static String extractTextFromFile(InputStream inputStream) throws IOException {
   Tika tika = new Tika();
   try {
         return tika.parseToString(inputStream);
   } catch (TikaException e) {
         throw new RuntimeException(e);
   }
}

private static String extractName(String text) {
   Pattern pattern = Pattern.compile("授权人（签字）[：:]([\\u4e00-\\u9fa5]+)");
   Matcher matcher = pattern.matcher(text);
   if (matcher.find()) {
         return matcher.group(1);
   }
   return "";
}

private static String extractIdNumber(String text) {
   Pattern pattern = Pattern.compile("身份证号码[：:](\\d{18}|\\d{15})");
   Matcher matcher = pattern.matcher(text);
   if (matcher.find()) {
         return matcher.group(1);
   }
   return "";
}
}3、执行效果

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

郦湘云 发表于 2025-11-14 22:58:56

前排留名，哈哈哈

怀陶宁 发表于 2025-12-11 16:00:26

谢谢分享，辛苦了

水苯发表于 2025-12-28 20:02:13

不错，里面软件多更新就更好了

崆蛾寺 发表于 2026-1-7 18:27:07

感谢分享，下载保存了，貌似很强大

卿搞笔 发表于 2026-1-12 01:18:45

感谢分享，学习下。

焦尔蕾 发表于 2026-1-13 21:38:45

这个有用。

事确发表于 2026-1-17 14:07:31

懂技术并乐意极积无私分享的人越来越少。珍惜

呶募妙 发表于 2026-1-18 13:07:58

这个有用。

赏听然 发表于 2026-1-20 17:06:25

热心回复！

缑娅瑛 发表于 2026-1-20 22:30:16

分享、互助让互联网精神温暖你我

计海龄 发表于 2026-1-21 18:18:57

喜欢鼓捣这些软件，现在用得少，谢谢分享！

嗣伐发表于 2026-1-23 13:31:06

感谢分享

轨项尺 发表于 2026-2-2 03:13:01

喜欢鼓捣这些软件，现在用得少，谢谢分享！

艾曼语 发表于 2026-2-3 05:48:45

分享、互助让互联网精神温暖你我

湛恶发表于 2026-2-3 07:23:06

很好很强大我过来先占个楼待编辑

盛天欣 发表于 2026-2-4 04:10:17

懂技术并乐意极积无私分享的人越来越少。珍惜

欧阳雪枫 发表于 2026-2-7 04:17:46

过来提前占个楼

焦和玉 发表于 2026-2-7 07:10:01

分享、互助让互联网精神温暖你我

郦湘云 发表于 2026-2-9 08:46:14

感谢分享，学习下。

页: [1] 2

程序园's Archiver

通过apache tika从文档(pdf、doc、docx、txt)中 提取特征数据

通过apache tika从文档(pdf、doc、docx、txt)中提取特征数据