返回首页
最新
我们创建Chargenda是因为如今的企业使用了许多工具,而大多数企业常常忘记续订日期、免费试用和定期收费。Chargenda将所有信息集中在一个地方,提前发送续订提醒,帮助团队减少不必要的开支。
嘿,HN,
我之所以开发这个工具,是因为我对传统PDF表格提取工具中的“无声失败”感到厌倦。
在我的日常工作中处理金融和法律文件时,像Camelot或Tabula这样的工具经常返回看似合理但实际上列错位或缺少小数点的数据。在受监管的环境中,你无法承担猜测的风险。
我建立了一个将提取视为需要验证的假设的流程:
1. **提取**:使用IBM的Docling解析布局并获取结构(Markdown格式)。
2. **视觉验证**:从PDF中捕获特定表格区域的截图。
3. **验证**:将Markdown和截图输入本地的视觉大语言模型(Llama 3.2通过Ollama)。
4. **评分**:大语言模型比较像素真实值与提取文本,并输出置信度分数和审计记录。
这个流程的权衡在于速度(每个表格大约需要5秒)与置信度。它被设计为100%本地运行,以保护隐私敏感的文件。
代码库在这里:[https://github.com/2dogsandanerd/validated-table-extractor](https://github.com/2dogsandanerd/validated-table-extractor)
我很想听听你们在RAG管道中如何处理数据完整性!
我曾经遇到一个问题,就是我会写日记,但从来不去看我写的内容。因此,我想如果能安排一些东西在未来某个时间发送给自己(就像一个时间胶囊)会很不错。此外,我也受到了futureme的启发,那个网站可以让你给自己写信,信件会在未来送达。
Euclyd是一家欧洲科技初创公司,致力于开发超高效的硅系统,以支持基础人工智能模型,包括大型语言模型。通过重新思考每一层架构——从定制神经处理器到内存架构和系统级设计——Euclyd显著降低了人工智能数据中心基础设施的能耗、成本和占地面积。Euclyd根植于欧洲工程价值观,构建环保、社会责任感强且精心设计的人工智能解决方案。公司总部位于荷兰埃因霍温,并在加利福尼亚州圣荷西设有办公室。Euclyd由一支富有远见的工程师团队领导,得到了包括彼得·温宁克(前ASML首席执行官)、费德里科·法金(微处理器的发明者及Zilog和Synaptics的创始人)和史蒂文·舒尔曼(Elastic的创始人)等行业传奇人物的指导和支持。