2作者: tito777大约 1 个月前原帖
嗨,HN,我是Bayang。我正在推出Runtime——一个桌面工具,它通过小而可重用的技能来自动化您现有的浏览器,而不是依赖庞大且脆弱的提示。 <p>链接</p> - 自述文件: <a href="https://github.com/runtime-org/runtime/blob/main/README.md" rel="nofollow">https://github.com/runtime-org/runtime/blob/main/README.md</a> - 技能指南: <a href="https://github.com/runtime-org/runtime/blob/main/SKILLS.md" rel="nofollow">https://github.com/runtime-org/runtime/blob/main/SKILLS.md</a> <p>我为什么要构建它?</p> 我在自己的工作中使用浏览器自动化,但由于需要将网页的大块内容推送到模型中,这变得缓慢且昂贵。我还看到了一些代理系统,比如浏览器使用的那种,试图流式传输实时DOM/处理并“猜测”下一个点击。这看起来很酷,但感觉笨重且不稳定。 我问了一些朋友,他们真正想要的是什么样的浏览器来完成他们的工作,比如重复性任务。所有三个人都说:“我想教我的浏览器,或者只是向它解释如何完成我的任务。”还有:“请不要让我切换浏览器——我已经有我的扩展、主题和设置。”这就是Runtime的起源:保持您的浏览器,保持控制,使自动化可预测。 Runtime在聊天中接收任务(我愿意挑战与Runtime对话的用户体验),然后运行由技能组成的简短计划。技能是一组功能:它有输入和预期输出。示例包括:“搜索网站”、“打开结果”、“提取产品字段”、“点击按钮”、“提交表单。”由于计划使用技能(而不是整个页面),提示保持简洁,处理过程保持确定性和快速。 <p>有什么不同</p> - 使用您的浏览器(Chrome/Edge,未来将支持Brave)。无需安装新浏览器。 - 设计上具有确定性。技能是明确且类型化的;运行过程可审计。 - 低令牌使用。我们传递紧凑的操作,而不是完整的DOM。更重要的是,我们根本不截图。我们认为,如果使用选择器进行导航,截图是没有用的。 - 人工干预。您可以随时查看步骤并停止/重试。 <p>适合谁?</p> 在网上进行研究/操作的人:提取结构化信息、填写表单、在工具之间移动数据,或在不编写完整RPA脚本或不使用任何API的情况下运行可重复的流程。这就是“runtime在运行时运行”。 <p>首先尝试这个(5-10分钟)</p> 1. 克隆代码库并按照自述文件中的快速入门进行操作。 2. 运行一个示例流程:搜索 → 打开 → 提取字段。 3. 阅读`SKILLS.md`,然后为您每天使用的网站制作一个小技能。 <p>尚未完美的地方</p> 网站会变化。技能也会变化,但我们会发布关于解决此问题的内容。 我很想知道它在哪些地方出现了问题。 <p>我希望得到的反馈</p> - 技能格式是否清晰?作为声明式的,这是否有帮助? - 计划者在哪些地方过度/不足地指定步骤? - 我们应该优先为哪些网站发布技能? 欢迎在评论中回答所有问题,也希望能得到一些反馈。谢谢! <p>Bayang</p>
2作者: lincoln20xx大约 1 个月前原帖
我最近看到这里有一条评论[0],提到了使用大型语言模型(LLMs)构建原生桌面应用程序所面临的挑战。评论者指出,培训资源变得非常稀缺——与网页或移动开发相比,几乎没有博客文章、教程或开源项目。他们还提到,虽然在90年代桌面应用开发是一条稳固的职业道路,但现在对于大多数人来说,它被视为一条死胡同,除了像微软或Adobe这样的巨头。 这让我开始思考:我自己的桌面开发经验可以追溯到90年代末,当时使用的是Delphi中的Turbo Pascal 6,而我对现代实践已经不太了解。随着环境的变化,我对今天开发者实际使用的工具和工作流程感到好奇。 以下是一些引发讨论的问题: - 目前哪些编程语言和框架在桌面应用开发中流行? - 有没有什么常用的集成开发环境(IDE)、构建工具或库可以简化开发过程? - 如果你关注代码性能或效率(无论对你来说这意味着什么),上述答案会有所不同吗? - 原生桌面应用开发作为职业仍然可行吗,还是大多数新项目正在转向基于网页的替代方案? 我很想听听最近有经验的朋友们的看法——成功故事、陷阱和建议都非常欢迎。提前感谢大家的分享! [0] https://news.ycombinator.com/item?id=44841291