返回首页
最新
嗨,HN,我们是Sid和Ritvik,Pulse的联合创始人。Pulse是一个文档提取系统,旨在生成适合大型语言模型(LLM)的文本。我们创建Pulse是因为意识到,尽管现代视觉语言模型在生成合理文本方面表现出色,但这也使得它们在大规模光学字符识别(OCR)和数据摄取中存在风险。
当我们开始进行文档提取时,我们假设与今天许多团队一样:基础模型正在快速改进,多模态系统似乎能够很好地读取文档,对于小型或干净的输入,这一假设往往成立。然而,当我们开始处理真实文档的大量数据时,这些局限性显现出来。长PDF、密集表格、混合布局、低质量扫描以及财务或运营数据暴露出一些微妙、难以检测且修正成本高昂的错误。输出结果往往看起来合理,但在表格和数字字段中却包含一些小但重要的错误。
自那时以来,我们的许多工作都是应用研究。我们对复杂文档进行受控评估,微调视觉模型,并构建真实情况至关重要的标注数据集。我们的团队曾多次熬夜手动标注页面,围绕表格绘制边框,逐点标记图表,或讨论某个数字是否不可读或仅仅是扫描效果差。这一过程在很大程度上塑造了我们的直觉,远比单纯的基准测试更为深刻。
很快我们意识到,核心挑战并不在于提取本身,而在于信心。视觉语言模型将文档图像嵌入到高维表示中,这些表示优化了语义理解,而非精确转录。这一过程本质上是有损的。当不确定性出现时,模型倾向于使用学习到的先验来解决,而不是揭示模糊性。这种行为在消费场景中可能是有益的,但在生产流程中却会造成难以扩展的验证问题。
Pulse的诞生旨在通过系统设计来弥补这一差距,而不仅仅依赖提示。系统将文档理解视为一个分离的过程,布局分析与语言建模相分离。文档被规范化为结构化表示,以保留层次和表格,然后再进行模式映射。提取受到预先定义的模式的约束,提取的值与源位置关联,以便可以检查不确定性,而不是简单地猜测。实际上,这导致了一种混合方法,结合了传统计算机视觉技术、布局模型和视觉语言模型,因为没有单一的方法能够可靠地处理这些情况。
我们故意分享了一些反映激励我们进行此项工作的输入类型的文档。这些文档代表了我们看到的通用OCR或基于VLM的管道所面临的困难案例。
以下是一个财务10K报告:
<a href="https://platform.runpulse.com/dashboard/examples/example1">https://platform.runpulse.com/dashboard/examples/example1</a>
以下是一份报纸:
<a href="https://platform.runpulse.com/dashboard/examples/example2">https://platform.runpulse.com/dashboard/examples/example2</a>
以下是一份租金清单:
<a href="https://platform.runpulse.com/dashboard/examples/example3">https://platform.runpulse.com/dashboard/examples/example3</a>
Pulse并不完美,特别是在高度退化的扫描或不常见的手写体上,仍然有改进的空间。我们的目标并不是完全消除错误,而是让错误可见、可审计,并更容易进行推理。
Pulse通过基于使用的API和平台访问提供。您可以在这里试用,并在这里访问API文档。
演示链接在这里:
<a href="https://video.runpulse.com/video/pulse-platform-walkthrough-69f9">https://video.runpulse.com/video/pulse-platform-walkthrough-...</a>
我们希望听听其他人在文档提取中如何评估正确性,您在实践中遇到的失败模式,以及您依赖哪些信号来判断输出是否可信。我们会在这里回答问题,并乐意处理其他文档,如果有人想分享示例。
我是一名独立开发者,开发了几个可以免费使用的工具应用程序,计划在它们获得足够用户后通过广告进行盈利。我的困惑是,是否应该现在就将这些产品开源,还是等到它们更加成熟后再开源。
如果有机会的话,您是否有任何特定的项目、学院等非技术领域想要学习的?
嗨,HN!我们创建了 DNS Directory(<a href="https://dnsdirectory.com" rel="nofollow">https://dnsdirectory.com</a>),这是一个免费的、可搜索的公共 DNS 服务器数据库,每 10 分钟进行一次实时监测。
我们需要找到一个全球运营商使用的最新 DNS 服务器列表,以便用于代理指纹识别/网络爬虫项目,但我们惊讶地发现这样的列表并不存在,因此我们在一次内部黑客马拉松中自己构建了这个数据库。
我们正在添加更多功能,但到目前为止,我们已经:
- 每 ~10 分钟测试超过 77,000 个服务器
- 允许按正常运行时间、位置、安全功能(广告拦截、恶意软件保护、DNSSEC)进行筛选
- 显示 IPv6 支持、Anycast 等信息
- 显示所有历史测试信息
我们没有计划将网站商业化,它将保持免费,以便作为公共资源使用。
我很想听听大家对我们改进网站的建议。网站目前可以正常运行,但某些功能,比如内容过滤检测,仍有待完善。我们希望在亚洲和美国增加测试节点,以便提供更好的覆盖,目前我们只从阿姆斯特丹进行测试。
如果您想要添加一个网站上尚未列出的 DNS 服务器,可以通过表单提交。如果您是一个大型组织,有很多服务器需要添加,可以通过 support@dnsdirectory.com 给我发邮件,我们会将其纳入。
谢谢!
我是一个独立开发者,在过去的一年里,我一直遇到同样的问题:我在发布项目时总是想着“我稍后会好好处理安全问题”,但老实说,我的网络安全知识很薄弱。
我常常忘记一些事情,比如:
- 缺少安全头部
- 弱的TLS/SSL配置
- 扫描器应该早期捕捉到的基本配置错误
因此,我开发了SecureNow,这是一个安全扫描工具,可以检查网站的常见漏洞,并提供清晰的报告和修复建议。
它并不是为了取代渗透测试——而是作为一个快速的“基础安全检查”,你可以在部署前或后运行。
这个工具是为开发者和小团队设计的。
我觉得一些功能非常酷:
- 开放端口扫描(并不是很多网站都有这些)
- 速率限制检测
- API路由检查
我今天发布了这个工具,真的很希望能得到反馈:
- 这个工具有用吗?
- 你希望从这样的工具中获得哪些检查?
- 有什么会让你不信任它?
- 价格是否过高?
链接:https://www.securenow.dev
欢迎随时提出任何技术问题。