纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtractor

橘芜 · 6 天前

前言

最近在做标书的时候发现，有些文档文字量很大，想让大模型完全解读不太现实，先不说 context 长度够不够，首先 token 消耗量就爆炸了
于是想到使用取巧的方式，提取 PDF 的目录来进行分析，于是说干就干，用 C# 写了一个工具来实现目录提取，结果效果还不错
后续我又继续完善这个工具，增加了语义识别等功能
继续沿用 C# + AOT + GitHub Actions + dotnet tool + nuget 这套流程的开发
项目地址: https://github.com/star-plan/pdf-toc-extractor
类似项目：

SharpIco
ImageGlider

为什么是目录提取？

PDF 转 word、markdown 等格式的工具太多了
咱不卷这个赛道
<blockquote>
（说是这么说，我最近也做了一个
来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

账号		自动登录	找回密码
密码			立即注册