找回密码
 立即注册
首页 业界区 业界 纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtrac ...

纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtractor

橘芜 6 天前
前言

最近在做标书的时候发现,有些文档文字量很大,想让大模型完全解读不太现实,先不说 context 长度够不够,首先 token 消耗量就爆炸了
于是想到使用取巧的方式,提取 PDF 的目录来进行分析,于是说干就干,用 C# 写了一个工具来实现目录提取,结果效果还不错
后续我又继续完善这个工具,增加了语义识别等功能
继续沿用 C# + AOT + GitHub Actions + dotnet tool + nuget 这套流程的开发
项目地址: https://github.com/star-plan/pdf-toc-extractor
类似项目:

  • SharpIco
  • ImageGlider
为什么是目录提取?

PDF 转 word、markdown 等格式的工具太多了
咱不卷这个赛道
<blockquote>
(说是这么说,我最近也做了一个
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册