1作者: ahsekka大约 2 个月前原帖
嗨,HN——分享 ragctl,这是一个开源命令行工具,专注于 RAG 流水线中最容易出错的部分:文档导入、OCR、解析/清理和分块。 目前,向向量数据库的设置相对标准化,但将高质量、一致的文本和元数据导入其中仍然需要大量脆弱的粘合代码。ragctl 旨在使这一“向量前”步骤可重复:只需几条命令即可将杂乱的文档转换为可检索的分块。 功能: - 支持多种格式输入:PDF、DOCX、HTML、图像 - 针对扫描/基于图像的文档的 OCR - 语义分块(LangChain) - 支持批量运行,带重试和错误处理 - 输出:直接导入 Qdrant(目前) 寻求反馈: - 开发体验:命令行界面是否直观? - 性能/边缘情况:奇怪的 PDF、混合布局、表格 - 路线图:下一个应该支持哪些连接器(S3、Slack、Notion)或向量存储? 仓库链接: [https://github.com/datallmhub/ragstudio](https://github.com/datallmhub/ragstudio) 欢迎就架构和分块方法提出问题。
4作者: thomaswc大约 2 个月前原帖
这是一个较长的难题,有点像一副2000片的拼图。建议与他人一起合作解决这个难题。 如果你喜欢规则,那么规则是你可以使用谷歌或任何其他外部资源来寻求帮助。不过,查看页面源代码被视为作弊。 特别感谢Octagon和TND团队在游戏测试和提出类别方面的帮助。
25作者: flaxxen大约 2 个月前原帖
<a href="https://xcancel.com/haravayin_hogh/status/2003299405907247502" rel="nofollow">https://xcancel.com/haravayin_hogh/status/200329940590724750...</a>
9作者: apatheticonion大约 2 个月前原帖
大家好,我不想为 Strong 或 Heavy 付费,所以我开始自己制作一个举重日志应用程序。<p>这个应用是免费的,并且将始终保持免费。<p>网址:https://stronk.app<p>源代码(欢迎贡献)。如果你发现了bug,请在问题区反馈。如果你现在不使用这个应用,但计划在我完善功能后使用,请给这个项目加星,这样我就知道要继续进行下去。<p>网址:https://github.com/alshdavid/stronk<p>还有很多事情要做,我需要添加以下功能: - Strava/Facebook 同步 - 导入/导出 - 图表 - 训练类型(热身/掉重) - 计时器 - 一次最大重复次数(1RM)计算 - 在线备份(目前数据保存在你的手机上)<p>这是一个网页应用,因为我不想为在应用商店发布而支付苹果和谷歌的费用。
1作者: simullab大约 2 个月前原帖
我厌倦了因为某个推特上的人说“这是下一个十倍股”而去买股票,或者因为在FOMO(错失恐惧)季节的高峰期买入而导致我的加密货币投资组合暴跌。我们都有过这样的经历,对吧? 所以我花了几周时间在Poe上使用他们的脚本机器人构建BuffettlyAI。目标很简单:创造一个在我做出愚蠢的财务决策之前,能让我清醒认识现实的工具。