3作者: scfast15 天前原帖
嗨,HN, 我正在开发一个名为 *Testronaut* 的项目,这是一种将人工智能推理与真实浏览器自动化相结合的自主测试框架。这个想法是让你用简单的英语定义端到端测试作为“任务”,然后让一个代理通过真实浏览器使用 Playwright 来执行这些任务。 我为什么要构建这个:我发现端到端测试往往脆弱、维护耗时且难以扩展。Testronaut 试图通过使用人工智能来适应小的用户界面变化,从而减少维护负担,同时仍然生成关于测试通过/失败的确定性报告。 它是如何工作的: - 任务可以写成字符串或函数。 - 代理使用 GPT-4o 和一组工具(点击、输入、导航、获取 DOM 等)与页面进行交互。正在开发对其他大型语言模型的支持。 - 浏览器控制由 Playwright 处理。 - 报告以 JSON 和 HTML 格式生成,并提供逐步细分(包括截图)。 - 它通过命令行界面(`npx testronaut`)在本地运行,不需要任何托管服务。不过,你需要提供自己的 OpenAI API 密钥。 当前状态: - 处于早期阶段:它适用于简单流程和演示应用,但我仍在调整其可靠性和效率。 - 只需一条命令即可安装,并附带一个示例任务。 - 在 npm/GitHub 上开源。 链接: - 文档与快速入门: [https://docs.testronaut.app](https://docs.testronaut.app) - GitHub: [https://github.com/mission-testronaut/testronaut-cli](https://github.com/mission-testronaut/testronaut-cli) - npm: [https://www.npmjs.com/package/testronaut](https://www.npmjs.com/package/testronaut) 我希望能从 HN 社区获得反馈: - 这个工具在哪些方面最有用(持续集成/持续交付?替代不稳定测试?探索性测试?)。 - 使用 AI 驱动的测试运行器时你可能会有什么顾虑。 - 在早期采用中我应该注意的任何“陷阱”。 感谢你的关注!
1作者: sifterai15 天前原帖
在厌倦了为简单的CSV任务编写pandas脚本后,我构建了这个工具。<p>上传一个文件,用简单的英语描述你想要的操作: - “筛选销售额大于1000并按地区分组” - “按渠道计算投资回报率并进行排名” - “删除重复项并按日期排序”<p>几秒钟内就能返回一个干净的CSV/TSV文件。<p>还有其他人发现自己在进行重复的数据转换,这些转换太小而不值得编写正式的脚本,但手动操作又太繁琐吗?<p>访问网址:sifter-ai.com
2作者: sathishn15 天前原帖
获取反向链接通常感觉很麻烦——冷邮件、电子表格、链接消失,以及一些垃圾链接。<p>我正在尝试一种基于积分的系统,其中:<p>1. 网站提供反向链接并获得积分。 2. 他们可以用积分从其他网站获取反向链接,而不仅仅是同一个网站。 3. 平台会自动验证链接是否有效。<p>这个想法是产品创作者和企业可以通过链接到他们认为有用和可信的内容来相互支持——这不是垃圾交换,而是真诚的推荐。<p>我的问题是:<p>你认为在2025年这会是一个真实的问题吗?<p>基于积分的系统真的能奏效吗,还是在实践中会崩溃?
1作者: paulmbw15 天前原帖
嗨,HN! 我是保罗,Traceprompt的创始人。我们正在构建一个开源SDK,它将您的AI代理封装起来,并生成防篡改的审计记录,这样您就可以证明哪个代理在何时使用了哪个模型做了什么。 您可以查看Node SDK(更多语言即将推出):[https://github.com/traceprompt/traceprompt-node](https://github.com/traceprompt/traceprompt-node) 我们创建Traceprompt是因为大型语言模型(LLMs)在各个地方被使用,但缺乏明确的审计和合规计划。通过与其他开发者的研究和讨论,我经常看到金融科技和医疗团队手动将API网关、CloudWatch日志和S3存储桶拼凑在一起,以跟踪提示/响应和保留。这既复杂又昂贵,因为几乎没有不可变性的证明。目前大多数工具(如Langfuse、Heliclone等)专注于LLM的可观察性;很少有工具能够生成合规所需的可验证证据。这正是我们介入的地方。 此外,法规也在朝这个方向发展(例如,欧盟AI法案要求对某些高风险系统进行日志记录,HIPAA要求审计控制,而FINRA/SEC规则推动WORM式保留)。我们的目标是让“证明没有变化”变得无聊。 我们的SDK很简单: 1. 采用BYOK架构与AWS KMS。我们从不查看明文提示/响应;只有您可以解密。其他KMS提供商在我们的路线图上。 2. 仅附加的、哈希链式的日志,并带有公共Merkle锚以供独立验证。代码库:[https://github.com/traceprompt/open-anchors](https://github.com/traceprompt/open-anchors) 3. 审计包:在有人询问“在这个日期和时间发生了什么”时,导出CSV行和证明(及收据)。您也可以验证审计包——如果有一个字节被篡改或一行被恶意行为者删除,验证将失败。 如果您正在考虑“AI审计记录”或在您的路线图上,我很乐意与您交谈。我们可以通过几种方式开始: 1. 查看代码库:审查代码,安装SDK并进行实验;如果有任何问题,请提出问题——[https://github.com/traceprompt/traceprompt-node](https://github.com/traceprompt/traceprompt-node) + [https://github.com/traceprompt/open-anchors](https://github.com/traceprompt/open-anchors) 2. 登陆页面:[https://traceprompt.com](https://traceprompt.com) — 有关集成和定价的详细信息;提供7天免费试用(或2M令牌上限)。 3. 加入我们的Discord:[https://discord.gg/2yUSXDECQk](https://discord.gg/2yUSXDECQk) 4. 预约一次免费的30分钟演示电话:[https://cal.com/traceprompt/traceprompt-intro](https://cal.com/traceprompt/traceprompt-intro) 我们非常希望听到您的反馈,因此我们会在评论区等候!如果您是开发者,我很乐意深入讨论更多技术细节或回答任何问题。如果您在AI审计和合规领域,请与我们联系,因为我们有很多需要学习和探索的内容 :) 谢谢!