橘芜 发表于 2025-8-20 09:35:06

纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtractor

前言

最近在做标书的时候发现,有些文档文字量很大,想让大模型完全解读不太现实,先不说 context 长度够不够,首先 token 消耗量就爆炸了
于是想到使用取巧的方式,提取 PDF 的目录来进行分析,于是说干就干,用 C# 写了一个工具来实现目录提取,结果效果还不错
后续我又继续完善这个工具,增加了语义识别等功能
继续沿用 C# + AOT + GitHub Actions + dotnet tool + nuget 这套流程的开发
项目地址: https://github.com/star-plan/pdf-toc-extractor
类似项目:

[*]SharpIco
[*]ImageGlider
为什么是目录提取?

PDF 转 word、markdown 等格式的工具太多了
咱不卷这个赛道
<blockquote>
(说是这么说,我最近也做了一个
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

祖柔惠 发表于 2025-12-11 01:32:06

热心回复!

膏包 发表于 2025-12-28 18:20:58

用心讨论,共获提升!

边书仪 发表于 2026-1-5 23:47:07

感谢分享,学习下。

柯惠心 发表于 2026-1-6 21:47:29

懂技术并乐意极积无私分享的人越来越少。珍惜

稞冀 发表于 2026-1-16 20:15:18

过来提前占个楼

拓炊羡 发表于 2026-1-17 01:29:42

谢谢分享,试用一下

致掣 发表于 2026-1-20 15:24:05

喜欢鼓捣这些软件,现在用得少,谢谢分享!

水苯 发表于 2026-1-22 12:09:52

感谢分享,学习下。

敖可 发表于 2026-1-23 16:30:13

很好很强大我过来先占个楼 待编辑

迭婵椟 发表于 2026-1-26 11:21:57

不错,里面软件多更新就更好了

老僻贞 发表于 2026-1-28 12:09:22

谢谢分享,试用一下

丧血槌 发表于 2026-1-30 03:11:50

谢谢楼主提供!

欤夤 发表于 2026-2-3 07:57:39

不错,里面软件多更新就更好了

拍棹 发表于 2026-2-6 04:48:25

yyds。多谢分享

南宫玉英 发表于 2026-2-6 08:26:07

收藏一下   不知道什么时候能用到

榷另辑 发表于 2026-2-7 04:35:00

喜欢鼓捣这些软件,现在用得少,谢谢分享!

胥望雅 发表于 2026-2-8 21:59:23

喜欢鼓捣这些软件,现在用得少,谢谢分享!

伯斌 发表于 2026-2-9 01:32:00

热心回复!

恿榫 发表于 2026-2-9 03:57:11

很好很强大我过来先占个楼 待编辑
页: [1] 2
查看完整版本: 纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtractor