返回首页
最新
在我的工作中,公司为团队中的每个人提供了一个Claude订阅。老实说,我更喜欢kiro,因为它提供了更好的SDD管理。但公司无法提供这个工具,而我现在也负担不起。结果我在我的Claude实例中发现了技能创建者的功能,于是我利用它创建了这个技能。我完全是通过Claude完成的,但我希望将其开源,所以我请求它帮助我进行测试和准备,甚至创建一个持续集成(CI)来运行Python测试。
那么,我们得到了以下结果:
- 阶段2A:67个静态断言(Python脚本,在CI中运行)
- 阶段2B:15个行为测试(实时Claude代码会话)
- 阶段2C:在3个端到端流程中进行的53个生成质量检查
所有这些都通过了,CI也通过了(经过几次尝试)。
我根据自己的提示和编码方式进行了调整,并基于kiro的SDD管理,但我希望它能公开可用,并被更多人使用。根据Claude的说法,一些测试者需要符合以下标准:
1. 从头开始启动一个全新项目的开发者
2. 有一个活跃的副项目的独立开发者(绿地项目或部分代码库)
3. 使用多个AI工具的团队负责人
4. 具有现有代码库但没有书面规格的开发者
5. 积极使用3个以上AI编码工具的开发者
这实际上是一个盲测,没有指导,您可以尝试一下,我会非常感激您的帮助。
仓库地址在这里: [https://github.com/FredAntB/Spec-Driven-Development](https://github.com/FredAntB/Spec-Driven-Development)
我们开发了Socratize,一款基于人工智能的培训工具,让员工在真实的工作场景中进行练习,而不是观看视频或参加测验。
大多数企业培训都是被动的。人们观看内容,点击幻灯片,通过测验,但在几天内就会忘记大部分内容。
我们想尝试一种不同的方法:通过对话和重复学习。
使用Socratize,用户进入逼真的场景,并需要对AI“对手”做出回应。
例如:
- 销售代表练习应对:“你的产品太贵了”
- 客服代表练习平息愤怒的客户
- 员工练习用自己的话解释合规规则
AI像一个真实的对手一样回应,挑战薄弱的论点,并继续对话,直到用户改善或未能通过场景。
目标很简单:用主动练习取代被动培训。
我们使用Claude生成回应,并根据上下文和推理评估用户论点的质量。每个会话都会被存储,以便团队可以查看员工在哪些方面遇到困难,以及哪些场景最具挑战性。
技术栈:
- Next.js(前端)
- Node.js(后端)
- PostgreSQL
- Claude API
我们上周推出了最小可行产品(MVP)。
我们还处于早期阶段,非常希望得到大家的反馈:
- 这种方法在培训中是否真的有意义?
- 我们遗漏了哪些使用案例?
- 在真实公司中,什么会导致这个方法失败?
- 这是否在根本上有用,还是仅仅是“有趣但不必要”?
在这里试用: https://socratize.io
免费版,无需信用卡。
欢迎随时提问。
这只是一个小版本更新,主要是为了修复我引入的一个回归问题 :-(
以下是此次版本更新中修复或解决的错误:
- 519574 valgrind 3.27 中的 "--fair-sched=yes" 无法正常工作
- 519613 Valgrind 在出错时错误地解包 sys_port (port_getn) 的结果,导致每次调用时出现约 60 秒的延迟
- n-i-bz 更新 vg-lifespan(版权)年份
- n-i-bz 在 VG_(realpath) 中使用 SSizeT 作为 VG_(readlink) 的结果
我在进行一个关于教授英语拼写的项目时制作了这个游戏。当时我在阅读同音词,突然意识到同音词可以多大程度上改变一个词的形状,于是我开始尝试基于这个概念的小型游戏。
我添加了一些其他的变换,比如字谜、动词/时态变化,但答案总是显得太明显。我无法足够扭曲单词,使其变得有趣。突破点在于复合词对。通过复合词从一个词跳到另一个词(例如:海 → 马,通过海马)真的模糊了路径,这时游戏突然变得有趣且不可预测。
我已经和朋友们分享了这个游戏。我在英国,所以主要是英国的测试者,提前警告一下,有几个同音词可能偏向于英式英语。
他们每天都在玩,似乎上瘾了,所以我觉得值得在这里发布。这个游戏主要是每天一个谜题,这样我实际上有时间精心挑选那些有令人满意路径的谜题。今天的谜题相对简单,但有些可以非常棘手。这个名字来源于“betwixt”,整个游戏就是关于在两个词之间移动。我后来注意到有一个60年代的桌游也叫这个名字,但它们其实是很不同的东西。
请在下方留言 :]
我使用Claude Code构建了这个工具,以可视化任何数量的比特币可以购买多少黄金、白银、铀-238和可卡因。点击SpaceX、战略和美国政府的预设,滑动滑块从1聪到2100万比特币,并开启盖革计数器。
嗨,HN,我是Smyan,我喜欢构建智能代理。现代的多模态大语言模型(LLM)在视觉和感知方面表现出色,但在定位方面却相对较弱。当我们尝试将我们的机器人流程自动化(RPA)框架交给代理以执行计算机使用任务时,这自然会造成一个巨大的问题。
对于浏览器,我们已经能够通过使用DOM树为LLM提供结构提示来解决这个问题。最近,现代浏览器使用的框架采用了“标记集合”(Set-Of-Marks)提示,这种方法将网页的结构信息转换为带标签的视觉边界框,使LLM能够利用其强大的视觉和感知能力,准确地将其转换为一种定位形式。从功能上讲,这意味着LLM现在只需说“点击4”,而不必说“点击443 213”。
然而,这种方法在我们尝试将其应用于本地操作系统自动化时效果极差。可访问性树(accessibility tree),通常存在于本地应用程序中,通常相当脆弱,暴露出非确定性的选择器,并且常常被开发者剥离,这使得定位元素变得困难。模糊匹配可以对此有所帮助,但仍然很难做到准确。
这正是我创建SoMatic的原因。SoMatic是一个纯视觉基础的框架,使用经过微调的YOLO模型(深受OmniParser v2的启发)来识别用户界面中的文本和可交互元素。YOLO模型在CPU上本地运行,使用ONNX,速度相当快。SoMatic绘制边界框和标签,然后将每个边界框的ID映射到给定框中心的坐标。这使得原则上可以对任何用户界面进行标记集合提示。
我使用该框架与GPT-5.5(高)进行了消融基准测试,发现其准确率比原始模型高出约20%。然而,令人惊讶的是,模型在仅知道边界框位置(而不实际查看它们)时表现稍好。这可能是由于YOLO模型的阈值调整导致绘制的框过多或过少(我不太确定)。
无论如何,如果你希望让你的AI代理完全自主地操作你的计算机(Windows、Mac和Linux),你可以通过以下命令下载CLI:
```
npm install -g somatic-cli/cli
```
并添加相应的技能:
```
npx skills add Smyan1909/SoMatic
```
如果你希望模型直接解析来自所选API的屏幕截图(以b64编码),而不是在每次截图后读取图像,CLI还附带一个标准输入输出的MCP服务器。
我很想听听你对这种纯视觉方法的反馈。我们是否终于可以放弃混乱的操作系统可访问性树来进行自动化了?