嗨,HN,我是Bayang。我正在推出Runtime——一个桌面工具,它通过小而可重用的技能来自动化您现有的浏览器,而不是依赖庞大且脆弱的提示。
<p>链接</p>
- 自述文件: <a href="https://github.com/runtime-org/runtime/blob/main/README.md" rel="nofollow">https://github.com/runtime-org/runtime/blob/main/README.md</a>
- 技能指南: <a href="https://github.com/runtime-org/runtime/blob/main/SKILLS.md" rel="nofollow">https://github.com/runtime-org/runtime/blob/main/SKILLS.md</a>
<p>我为什么要构建它?</p>
我在自己的工作中使用浏览器自动化,但由于需要将网页的大块内容推送到模型中,这变得缓慢且昂贵。我还看到了一些代理系统,比如浏览器使用的那种,试图流式传输实时DOM/处理并“猜测”下一个点击。这看起来很酷,但感觉笨重且不稳定。
我问了一些朋友,他们真正想要的是什么样的浏览器来完成他们的工作,比如重复性任务。所有三个人都说:“我想教我的浏览器,或者只是向它解释如何完成我的任务。”还有:“请不要让我切换浏览器——我已经有我的扩展、主题和设置。”这就是Runtime的起源:保持您的浏览器,保持控制,使自动化可预测。
Runtime在聊天中接收任务(我愿意挑战与Runtime对话的用户体验),然后运行由技能组成的简短计划。技能是一组功能:它有输入和预期输出。示例包括:“搜索网站”、“打开结果”、“提取产品字段”、“点击按钮”、“提交表单。”由于计划使用技能(而不是整个页面),提示保持简洁,处理过程保持确定性和快速。
<p>有什么不同</p>
- 使用您的浏览器(Chrome/Edge,未来将支持Brave)。无需安装新浏览器。
- 设计上具有确定性。技能是明确且类型化的;运行过程可审计。
- 低令牌使用。我们传递紧凑的操作,而不是完整的DOM。更重要的是,我们根本不截图。我们认为,如果使用选择器进行导航,截图是没有用的。
- 人工干预。您可以随时查看步骤并停止/重试。
<p>适合谁?</p>
在网上进行研究/操作的人:提取结构化信息、填写表单、在工具之间移动数据,或在不编写完整RPA脚本或不使用任何API的情况下运行可重复的流程。这就是“runtime在运行时运行”。
<p>首先尝试这个(5-10分钟)</p>
1. 克隆代码库并按照自述文件中的快速入门进行操作。
2. 运行一个示例流程:搜索 → 打开 → 提取字段。
3. 阅读`SKILLS.md`,然后为您每天使用的网站制作一个小技能。
<p>尚未完美的地方</p>
网站会变化。技能也会变化,但我们会发布关于解决此问题的内容。
我很想知道它在哪些地方出现了问题。
<p>我希望得到的反馈</p>
- 技能格式是否清晰?作为声明式的,这是否有帮助?
- 计划者在哪些地方过度/不足地指定步骤?
- 我们应该优先为哪些网站发布技能?
欢迎在评论中回答所有问题,也希望能得到一些反馈。谢谢!
<p>Bayang</p>
返回首页
最新
一般的大型语言模型(LLMs)是否已经达到顶峰?
我最近看到这里有一条评论[0],提到了使用大型语言模型(LLMs)构建原生桌面应用程序所面临的挑战。评论者指出,培训资源变得非常稀缺——与网页或移动开发相比,几乎没有博客文章、教程或开源项目。他们还提到,虽然在90年代桌面应用开发是一条稳固的职业道路,但现在对于大多数人来说,它被视为一条死胡同,除了像微软或Adobe这样的巨头。
这让我开始思考:我自己的桌面开发经验可以追溯到90年代末,当时使用的是Delphi中的Turbo Pascal 6,而我对现代实践已经不太了解。随着环境的变化,我对今天开发者实际使用的工具和工作流程感到好奇。
以下是一些引发讨论的问题:
- 目前哪些编程语言和框架在桌面应用开发中流行?
- 有没有什么常用的集成开发环境(IDE)、构建工具或库可以简化开发过程?
- 如果你关注代码性能或效率(无论对你来说这意味着什么),上述答案会有所不同吗?
- 原生桌面应用开发作为职业仍然可行吗,还是大多数新项目正在转向基于网页的替代方案?
我很想听听最近有经验的朋友们的看法——成功故事、陷阱和建议都非常欢迎。提前感谢大家的分享!
[0] https://news.ycombinator.com/item?id=44841291
如今,人人都在建立人工智能公司。每个创业计划书都以“人工智能驱动”开头,每个初创企业都声称自己是下一个“针对X的ChatGPT”,风险投资家们也不停谈论人工智能革命。
但他们忽视了一个事实:当大家都涌入同一个被过度炒作的领域时,真正的利润却是在那些解决平凡问题的无趣业务中产生的。
**政府表格的金矿**
让我告诉你一个完美诠释这一原则的公司。当成千上万的企业家在构建GPT应用和人工智能聊天机器人时,一个小团队注意到其他人忽视的事情:申请政府援助的人被繁琐的文书工作淹没了。
这个过程就像是官僚主义的地狱——复杂的表格、不明确的要求,以及与政府办公室之间无休止的来回沟通。大多数科技企业家对此问题不会多看一眼。它不够吸引眼球,不会登上《科技Crunch》的头条,也不涉及机器学习或神经网络。
但你猜怎么着?这款“无趣”的表格填写软件现在每年创造3000万美元的收入。
这就是“在鱼聚集的地方捕鱼,而不是在渔民聚集的地方”的本质。当其他人都在争夺同样拥挤的市场时,聪明的企业家会找到未被开发的问题,并拥有真正愿意付费的客户。
**为什么无趣的业务通常胜过热门的**
人工智能的淘金热让我想起了其他技术泡沫。还记得当一切都被称为“区块链驱动”或“移动优先”或“社交启用”时吗?在那些炒作周期中存活下来的公司并不是追逐潮流的,而是那些解决实际问题并恰好使用了这些技术的公司。
今天的人工智能公司面临三个根本性问题:
1. **商品陷阱**:随着人工智能能力变得更加可及,竞争壁垒消失。你的律师用人工智能聊天机器人与其他人的看起来几乎一模一样。
2. **炒作后遗症**:当人工智能泡沫破裂(这一定会发生)时,投资者将要求实际利润,而不仅仅是令人印象深刻的演示。许多现有的人工智能公司没有明确的盈利路径。
3. **依赖风险**:将整个业务建立在快速发展的人工智能模型上意味着你距离过时只差一个API的变化。
**如何找到你的无趣金矿**
发现这些被忽视的机会并不是运气,而是一种系统化的问题识别方法:
1. **从自己的痛点开始**
最好的商业创意往往隐藏在你日常的挫折中。哪些流程让你想尖叫?哪些任务无缘无故占用了你几个小时的时间?如果这让你烦恼,可能也会让成千上万的人烦恼。
2. **挖掘你的网络**
你的朋友、家人和同事是商业创意的金矿。问问他们:“你工作中最令人沮丧的部分是什么?”“哪些事情花费的时间远超预期?”“什么能让你每周节省几个小时?”倾听他们的回答,如果多个人提到相似的问题,你就找到了值得探索的方向。
3. **质疑一切的手动流程**
如果到2025年,还有人使用电子表格来跟踪重要的商业流程,那肯定存在机会。如果人们在打印表格、手动填写并传真回去,那绝对是一个机会。寻找那些似乎停留在1995年的工作流程。
4. **关注投诉**
Reddit、Twitter和行业论坛上充满了人们对破碎流程的抱怨。这些投诉线程基本上是免费的市场调研。
当那些引人注目的初创企业争夺注意力时,无趣的业务享有几个不公平的优势:
- **竞争较少**:大多数企业家追逐闪亮的目标,留下了未解决的平凡问题。
- **客户粘性**:解决运营难题的企业创造了深度的整合点,难以被替代。
- **可预测的收入**:无趣的问题往往是持续存在的问题,导致订阅收入而非一次性购买。
- **较低的客户获取成本**:当你解决了一个被忽视市场中的真实痛点时,客户会通过口碑找到你。
YouTube在科技评测方面毫无用处。大多数评测都是虚假的,使用的是广告中的照片。那些列出前十名的榜单对任何硬件都没有负面评价(因为他们根本没有使用过这些产品),而且到处都是联盟链接。即使是Linus Tech Tips和其他大频道也发布不诚实的评测,往往没有长时间使用被评测的产品。