返回首页
最新
我们创建Chargenda是因为如今的企业使用了许多工具,而大多数企业常常忘记续订日期、免费试用和定期收费。Chargenda将所有信息集中在一个地方,提前发送续订提醒,帮助团队减少不必要的开支。
嘿,HN,
我之所以开发这个工具,是因为我对传统PDF表格提取工具中的“无声失败”感到厌倦。
在我的日常工作中处理金融和法律文件时,像Camelot或Tabula这样的工具经常返回看似合理但实际上列错位或缺少小数点的数据。在受监管的环境中,你无法承担猜测的风险。
我建立了一个将提取视为需要验证的假设的流程:
1. **提取**:使用IBM的Docling解析布局并获取结构(Markdown格式)。
2. **视觉验证**:从PDF中捕获特定表格区域的截图。
3. **验证**:将Markdown和截图输入本地的视觉大语言模型(Llama 3.2通过Ollama)。
4. **评分**:大语言模型比较像素真实值与提取文本,并输出置信度分数和审计记录。
这个流程的权衡在于速度(每个表格大约需要5秒)与置信度。它被设计为100%本地运行,以保护隐私敏感的文件。
代码库在这里:[https://github.com/2dogsandanerd/validated-table-extractor](https://github.com/2dogsandanerd/validated-table-extractor)
我很想听听你们在RAG管道中如何处理数据完整性!