2作者: victorevogor3 个月前原帖
嗨,HN!我开发了Docuglean,一个开源的智能文档处理SDK,支持OpenAI、Mistral、Google Gemini和Hugging Face模型。 这个想法源于我多次编写样板代码,以从发票、收据和其他文档中提取结构化数据。我希望有一个统一的接口,而不是与不同的API格式斗争,具体功能包括: - 使用Zod/Pydantic模式提取结构化数据 - 对多部分文档(例如医疗记录)进行分类和拆分 - 批量处理文档,并自动处理错误 - 本地工作,无需API(支持PDF、DOCX、XLSX等) 主要特点: - 支持TypeScript和Python - 支持并发请求的批量处理 - 文档分类(按类别拆分超过100页的文档) - 本地解析器(基本提取无需API) - 授予Apache 2.0许可证 目前支持OpenAI、Mistral、Gemini和Hugging Face,计划添加Together AI、Anthropic等更多模型。 非常希望能收到关于API设计的反馈,以及您认为哪些功能最有用。
1作者: Indri-Fazliji3 个月前原帖
我创建了 GitPulse 是为了帮助解决我遇到的问题:寻找适合初学者的代码库。<p>功能: • 200+ 精选的“适合初学者的问题” • 基于人工智能的难度预测器 • 智能代码库匹配 • 贡献者分析 • 代码库健康评分<p>在线访问:<a href="https:&#x2F;&#x2F;git-pulsee.vercel.app" rel="nofollow">https:&#x2F;&#x2F;git-pulsee.vercel.app</a>
1作者: nrig3 个月前原帖
我维护几个开源项目,依赖管理变得令人不堪重负。<p>Dependabot 每周在我的代码库中打开 20-30 个拉取请求。大多数是小版本更新,但其中实际上隐藏着一些关键的安全问题。我发现自己要么选择忽略它们(这很危险),要么花费数小时进行分类(这不可持续)。<p>问题是:我没有一个好的信号来区分什么是紧急的,什么可以等待。<p>我尝试过的方法: - 跟踪 CVSS 分数 → 但“关键”并不意味着“在我的环境中可被利用” - 自动合并补丁版本 → 错过了一些重要的安全修复 - 手动审核所有内容 → 每周需要花费 5-10 小时<p>我最近发现了 CISA 的 KEV 目录(已知被利用的漏洞),它标记了在实际环境中被积极利用的 CVE。这似乎比单独使用 CVSS 更有效,但我很好奇:<p>1. 你是如何判断什么是真正紧急的?CVSS?EPSS?手动评估?<p>2. 你是否将“过时但不易受攻击”的依赖与“有 CVE”的依赖区别对待?<p>3. 对于使用 Dependabot/Renovate/Snyk 的人来说,你们的工作流程是怎样的?你们会审核每一个警报,还是找到了一个好的过滤系统?<p>我正在考虑构建一些工具来帮助解决这个问题(健康评分 + 基于利用的优先级排序),但我想确保我不是在解决我自己的奇怪问题。<p>你们有什么有效的方法吗?
2作者: spacemnstr420693 个月前原帖
代理领域充满了演示和炒作,但几乎没有人谈论在生产环境中实际出现的问题以及为什么我们周围看不到真正的代理。<p>Found Breakpoint 正在为工程师们打造一个交流平台,分享经验故事、事后分析和真实的解决方案。<p>第一次活动将在明天举行: https://luma.com/w95wm3k7