返回首页
最新
嗨,HN,我是Bayang。我正在推出Runtime——一个桌面工具,它通过小而可重用的技能来自动化您现有的浏览器,而不是依赖庞大且脆弱的提示。
<p>链接</p>
- 自述文件: <a href="https://github.com/runtime-org/runtime/blob/main/README.md" rel="nofollow">https://github.com/runtime-org/runtime/blob/main/README.md</a>
- 技能指南: <a href="https://github.com/runtime-org/runtime/blob/main/SKILLS.md" rel="nofollow">https://github.com/runtime-org/runtime/blob/main/SKILLS.md</a>
<p>我为什么要构建它?</p>
我在自己的工作中使用浏览器自动化,但由于需要将网页的大块内容推送到模型中,这变得缓慢且昂贵。我还看到了一些代理系统,比如浏览器使用的那种,试图流式传输实时DOM/处理并“猜测”下一个点击。这看起来很酷,但感觉笨重且不稳定。
我问了一些朋友,他们真正想要的是什么样的浏览器来完成他们的工作,比如重复性任务。所有三个人都说:“我想教我的浏览器,或者只是向它解释如何完成我的任务。”还有:“请不要让我切换浏览器——我已经有我的扩展、主题和设置。”这就是Runtime的起源:保持您的浏览器,保持控制,使自动化可预测。
Runtime在聊天中接收任务(我愿意挑战与Runtime对话的用户体验),然后运行由技能组成的简短计划。技能是一组功能:它有输入和预期输出。示例包括:“搜索网站”、“打开结果”、“提取产品字段”、“点击按钮”、“提交表单。”由于计划使用技能(而不是整个页面),提示保持简洁,处理过程保持确定性和快速。
<p>有什么不同</p>
- 使用您的浏览器(Chrome/Edge,未来将支持Brave)。无需安装新浏览器。
- 设计上具有确定性。技能是明确且类型化的;运行过程可审计。
- 低令牌使用。我们传递紧凑的操作,而不是完整的DOM。更重要的是,我们根本不截图。我们认为,如果使用选择器进行导航,截图是没有用的。
- 人工干预。您可以随时查看步骤并停止/重试。
<p>适合谁?</p>
在网上进行研究/操作的人:提取结构化信息、填写表单、在工具之间移动数据,或在不编写完整RPA脚本或不使用任何API的情况下运行可重复的流程。这就是“runtime在运行时运行”。
<p>首先尝试这个(5-10分钟)</p>
1. 克隆代码库并按照自述文件中的快速入门进行操作。
2. 运行一个示例流程:搜索 → 打开 → 提取字段。
3. 阅读`SKILLS.md`,然后为您每天使用的网站制作一个小技能。
<p>尚未完美的地方</p>
网站会变化。技能也会变化,但我们会发布关于解决此问题的内容。
我很想知道它在哪些地方出现了问题。
<p>我希望得到的反馈</p>
- 技能格式是否清晰?作为声明式的,这是否有帮助?
- 计划者在哪些地方过度/不足地指定步骤?
- 我们应该优先为哪些网站发布技能?
欢迎在评论中回答所有问题,也希望能得到一些反馈。谢谢!
<p>Bayang</p>
一般的大型语言模型(LLMs)是否已经达到顶峰?
我最近看到这里有一条评论[0],提到了使用大型语言模型(LLMs)构建原生桌面应用程序所面临的挑战。评论者指出,培训资源变得非常稀缺——与网页或移动开发相比,几乎没有博客文章、教程或开源项目。他们还提到,虽然在90年代桌面应用开发是一条稳固的职业道路,但现在对于大多数人来说,它被视为一条死胡同,除了像微软或Adobe这样的巨头。
这让我开始思考:我自己的桌面开发经验可以追溯到90年代末,当时使用的是Delphi中的Turbo Pascal 6,而我对现代实践已经不太了解。随着环境的变化,我对今天开发者实际使用的工具和工作流程感到好奇。
以下是一些引发讨论的问题:
- 目前哪些编程语言和框架在桌面应用开发中流行?
- 有没有什么常用的集成开发环境(IDE)、构建工具或库可以简化开发过程?
- 如果你关注代码性能或效率(无论对你来说这意味着什么),上述答案会有所不同吗?
- 原生桌面应用开发作为职业仍然可行吗,还是大多数新项目正在转向基于网页的替代方案?
我很想听听最近有经验的朋友们的看法——成功故事、陷阱和建议都非常欢迎。提前感谢大家的分享!
[0] https://news.ycombinator.com/item?id=44841291