1作者: 2dogsanerd2 个月前原帖
嘿,HN, 我之所以开发这个工具,是因为我对传统PDF表格提取工具中的“无声失败”感到厌倦。 在我的日常工作中处理金融和法律文件时,像Camelot或Tabula这样的工具经常返回看似合理但实际上列错位或缺少小数点的数据。在受监管的环境中,你无法承担猜测的风险。 我建立了一个将提取视为需要验证的假设的流程: 1. **提取**:使用IBM的Docling解析布局并获取结构(Markdown格式)。 2. **视觉验证**:从PDF中捕获特定表格区域的截图。 3. **验证**:将Markdown和截图输入本地的视觉大语言模型(Llama 3.2通过Ollama)。 4. **评分**:大语言模型比较像素真实值与提取文本,并输出置信度分数和审计记录。 这个流程的权衡在于速度(每个表格大约需要5秒)与置信度。它被设计为100%本地运行,以保护隐私敏感的文件。 代码库在这里:[https://github.com/2dogsandanerd/validated-table-extractor](https://github.com/2dogsandanerd/validated-table-extractor) 我很想听听你们在RAG管道中如何处理数据完整性!