1作者: galaxyeye大约 2 个月前原帖
嗨,HN, 我想分享一个我们已经开发了一段时间的开源项目:**Browser4**。 这个项目的动机源于一个反复出现的挫折:大多数浏览器自动化工具(如 Playwright、Selenium、Puppeteer)在处理**人类编写的脚本**时表现出色,但在作为**AI代理的核心执行层**或在高并发情况下使用时,开始出现一些摩擦。 因此,我们没有选择“在 Playwright 上再做一个封装”,而是尝试了一个不同的方向:**设计一个将 AI 代理视为第一公民的浏览器引擎**。 ### Browser4 是什么 Browser4 是一个基于**原生 Chrome DevTools 协议(CDP)**构建的浏览器自动化引擎,重点关注: * **协程安全的并发**(旨在并行运行多个浏览器会话) * **面向代理的 API**(导航、交互、提取作为可组合的操作) * **混合提取**:机器学习代理驱动的提取 + 大语言模型提取 + 结构化选择器 + 类 SQL 的 DOM 查询语言(X-SQL) * **低级控制**,没有 Playwright 风格的抽象开销 它是用**Kotlin/JVM**编写的,主要是因为我们需要可预测的并发行为和在负载下的长时间稳定性。 该项目完全开源(Apache 2.0)。 ### 它**不是** * 它不是一个可以直接替代 Playwright 的工具。 * 它不是一个无代码的 RPA 工具。 * 它不是“LLM 魔法”——LLM 位于浏览器引擎的**外部**。 Browser4 有意保持与浏览器执行层的紧密联系,将规划和推理留给外部代理循环。 ### 我们正在测试的当前用例 * 大规模网页数据提取 * 代理工作流(搜索 → 导航 → 提取 → 总结) * 价格/内容监控,频繁回访 * 高并发爬虫,其中浏览器启动和上下文切换是瓶颈 在单台机器上,我们可以维持**非常高的每日页面访问量**,尽管我们仍在验证不同工作负载下的基准。 ### 需要开放的问题(我很想听听反馈) * 对于代理系统,完全绕过 Playwright 并更接近 CDP 是否合理? * 在将 LLM 与浏览器自动化结合时,您看到的最大痛点是什么? * JVM 在这里是一个合理的选择吗,还是尽管存在并发限制,Python 仍然是更好的权衡? * 在为 AI 代理构建的浏览器引擎中,您希望有哪些抽象? ### 链接 * GitHub: [https://github.com/platonai/browser4](https://github.com/platonai/browser4) * 网站(简要概述):[https://browser4.io](https://browser4.io) 欢迎提出技术问题或批评意见——特别是来自在生产环境中运行浏览器自动化或代理系统的朋友们。 感谢您的阅读。
3作者: cv_h大约 2 个月前原帖
我创建了Flowctl,作为Rundeck的轻量级替代方案,用于将脚本转化为安全的自助服务产品。它是一个单一的Go二进制文件,工作流通过简单的YAML/HUML配置定义。Flowctl是免费的开源软件,采用Apache 2.0许可证。 用户填写表单以触发工作流。工作流配置定义了输入,Flowctl将其呈现为表单。输入可以使用表达式进行验证。 工作流是一系列动作的序列。每个动作可以在本地运行,也可以通过SSH在远程节点上运行。每个动作使用一个执行器,并且可以在继续之前等待批准。 执行器为动作提供运行时环境。目前有两个可用的执行器(Docker和脚本)。执行器是模块化的,但我正在努力通过gRPC插件使它们可插拔。 我创建这个工具是因为我需要一个简单的工具来管理我的家庭实验室,尤其是在旅行时,它可以作为脚本的用户界面。在工作中,我也在寻找将重复的运维/基础设施任务转化为自助服务的工具。我尝试过Backstage和Rundeck等工具,但它们要么过于复杂,要么开源版本缺乏重要功能。 示例用例: - 数据库迁移:等待DBA批准,通过SSH在远程数据库主机上运行迁移,迁移后进行验证。 - 自助服务基础设施配置:Terraform计划在Docker容器中运行,输出计划作为工件,暂停等待批准,获得批准后应用。 - 紧急磁盘空间清理:值班工程师通过用户界面触发。工作流通过SSH连接到服务器,识别可以安全删除的文件(旧日志、临时文件、Docker缓存)并进行清理。 功能: - 支持OIDC的单点登录(SSO)和基于角色的访问控制(RBAC) - 命名空间隔离 - 通过SSH在远程节点上执行 - 审批流程 - 基于Cron的调度 - 加密的凭据和秘密存储 - Docker和脚本执行器 - 动作之间的文件和变量传递 - 在多个远程节点上并行执行 技术栈:Go, SvelteKit, PostgreSQL 演示:<a href="https://demo.flowctl.net" rel="nofollow">https://demo.flowctl.net</a>(优化为桌面使用) 主页:<a href="https://flowctl.net" rel="nofollow">https://flowctl.net</a> GitHub:<a href="https://github.com/cvhariharan/flowctl" rel="nofollow">https://github.com/cvhariharan/flowctl</a> 我非常欢迎您对功能、用例或遇到的问题提供反馈。也乐意回答任何问题!
2作者: Pukuta大约 2 个月前原帖
你希望在生活中如何控制人工智能代理? 你会让人工智能代理代表你发送电子邮件吗? 大多数人会说“不”——风险太大。 但是如果你可以设置一些规则,比如: • “只发送给我的联系人” • “绝不超过50美元” • “只在下午2点到4点之间安排会议” • “阻止域名:competitor.com” 这就是我所构建的。 介绍PIA(个人身份代理)——一个用于人工智能代理的授权平台。 它就像是你生活中的身份管理(IAM): - 定义政策(代理可以做/不能做的事情) - 代理通过OAuth流程进行身份验证 - 大型语言模型(LLM)根据你的规则验证每一个操作 - 完整的审计跟踪 我构建了一个SDK和5个生产级代理来证明这一点: 电子邮件 • 日历 • 联系人 • 文件 • 任务 所有功能都已上线,具备生产就绪状态。 访问地址:digital-embodiments.vercel.app SDK已在NPM上发布: npm install @variant96/pia-sdk 技术栈:Next.js、TypeScript、Prisma、NextAuth、Groq/Gemini 这是我对如何安全地将任务委托给人工智能代理的看法。 你有什么想法?有什么可以让这个更有用的建议吗?
2作者: sgharlow大约 2 个月前原帖
<p><pre><code>我已经每天使用Claude Code大约6个月了。在不断重复构建相同的提示后,我开始将它们记录为“食谱”——结构化的提示,包含使用时的上下文和预期的输出。 这个仓库包含100个食谱,涵盖了常见的知识工作任务: - 会议记录 → 行动项目 - 状态报告 - 绩效评估 - 提案和演示文稿 - 数据分析叙述 - 标准操作程序(SOP)和文档 每个食谱包括: - 解决的问题 - 何时使用(以及何时不使用) - 前提条件 - 步骤提示 - 示例输出 - 故障排除提示 这些食谱分为10个层级,从通用任务(每个人都需要会议记录的帮助)到专业功能(并购尽职调查、法律研究)。 我还在/premium文件夹中包含了10个示例斜杠命令,您可以直接安装到Claude Code的~/.claude/commands/目录中。 如果您对这些食谱的演变有任何问题,或者想讨论我在不同任务类型中发现的有效提示模式,欢迎随时提问。</code></pre>