登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
签到
每天签到奖励2-10圆
导读
排行榜
TG频道
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
VIP申请
VIP网盘
网盘
联系我们
发帖说明
每日签到
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
资源区
›
代码
›
通过apache tika从文档(pdf、doc、docx、txt)中 提取特 ...
通过apache tika从文档(pdf、doc、docx、txt)中 提取特征数据
[ 复制链接 ]
金娅鸣
2025-6-2 00:11:14
本文介绍如何通过apache tika从文档(pdf、doc、docx、txt)中 提取特征数据,比如文档中有身份证、姓名等信息。【全部是经本人实际测试过的功能】
1、需引入相关pom依赖
<dependency>
<groupId>org.apache.tika</groupId>
tika-core</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
tika-parsers-standard-package</artifactId>
<version>2.8.0</version>
</dependency>
<dependency>
<groupId>org.apache.xmlbeans</groupId>
xmlbeans</artifactId>
<version>5.1.1</version>
</dependency>
复制代码
2、编写相关代码
package org.example.wordcontent;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* 通过apache tika从 pdf、doc、docx、txt中提取数据
* 核心依赖jar【tika-core 2.8.0、tika-parsers-standard-package 2.8.0(解析word时,需另外外依赖xmlbeans 5.1.1)】
* 假定文档中的内容具有下列属性:
* [授权人(签字):张三
* 身份证号码: 322025199902256056 ]
* 待提取的内容为张三 和 322025199902256056。张三和322025199902256056的值会变
*/
public class TikaExtrator {
public static void main(String[] args) {
try {
//// 替换为实际的PDF文件路径 测试例子: 如 测试.xlsx.
InputStream input = TikaExtrator.class.getClassLoader().getResourceAsStream("综合信息查询授权书测试.docx");
String text = extractTextFromFile(input);
System.out.println("text: " + text);
String name = extractName(text);
String idNumber = extractIdNumber(text);
System.out.println("授权人姓名: " + name);
System.out.println("身份证号码: " + idNumber);
} catch (IOException e) {
e.printStackTrace();
}
}
/**
*
* @param inputStream
* @return
* @throws IOException
*/
private static String extractTextFromFile(InputStream inputStream) throws IOException {
Tika tika = new Tika();
try {
return tika.parseToString(inputStream);
} catch (TikaException e) {
throw new RuntimeException(e);
}
}
private static String extractName(String text) {
Pattern pattern = Pattern.compile("授权人(签字)[::]([\\u4e00-\\u9fa5]+)");
Matcher matcher = pattern.matcher(text);
if (matcher.find()) {
return matcher.group(1);
}
return "";
}
private static String extractIdNumber(String text) {
Pattern pattern = Pattern.compile("身份证号码[::](\\d{18}|\\d{15})");
Matcher matcher = pattern.matcher(text);
if (matcher.find()) {
return matcher.group(1);
}
return "";
}
}
复制代码
3、执行效果
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
通过
apache
tika
文档
pdf
相关帖子
5 种使用 Python 自动化处理 PDF 的实用方法
Stimulsoft Reports、Dashboards 和 PDF Forms 2025.4 即将发布!
Apache SeaTunnel × Hive 深度集成指南:原理、配置与实践
Apache DolphinScheduler保姆级实操指南:云原生任务调度实战
国产化PDF处理控件Spire.PDF教程:在Java中读取PDF,提取文本、图片和表格
Markdown语法文档,Markdown教程,Markdown语法大全,
【EF Core】通过 DbContext 选项扩展框架
程序员不撰写代码注释和文档的十大理由
通过动画带你复习排序算法
通过AOP拦截Spring Boot日志并将其存入数据库
vip免费申请,1年只需15美金$
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
5 种使用 Python 自动化处理 PDF 的实用方法
0
552
乃阕饯
2025-10-06
业界
Stimulsoft Reports、Dashboards 和 PDF Forms 2025.4 即将发布!
0
894
呶募妙
2025-10-06
安全
Apache SeaTunnel × Hive 深度集成指南:原理、配置与实践
0
447
泡市
2025-10-06
安全
Apache DolphinScheduler保姆级实操指南:云原生任务调度实战
0
565
户烫擞
2025-10-06
业界
国产化PDF处理控件Spire.PDF教程:在Java中读取PDF,提取文本、图片和表格
0
12
柏球侠
2025-10-06
安全
Markdown语法文档,Markdown教程,Markdown语法大全,
0
538
均浇
2025-10-07
业界
【EF Core】通过 DbContext 选项扩展框架
0
152
拍棹
2025-10-08
安全
程序员不撰写代码注释和文档的十大理由
0
613
空娅芬
2025-10-09
安全
通过动画带你复习排序算法
0
684
毕余馥
2025-10-09
安全
通过AOP拦截Spring Boot日志并将其存入数据库
0
426
咚獭
2025-10-10
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
业界
签约作者
程序园优秀签约作者
发帖
金娅鸣
2025-6-2 00:11:14
关注
0
粉丝关注
20
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9999501
dage888
999994
富账慕
10007
4
匝抽
9986
5
孙淼淼
9992
6
柴古香
9993
7
筒濂
9982
8
凌彦慧
9991
9
崔瑜然
9984
10
慢秤
9979
查看更多