4作者: NTRIXLM大约 1 个月前原帖
在我的工作中,公司为团队中的每个人提供了一个Claude订阅。老实说,我更喜欢kiro,因为它提供了更好的SDD管理。但公司无法提供这个工具,而我现在也负担不起。结果我在我的Claude实例中发现了技能创建者的功能,于是我利用它创建了这个技能。我完全是通过Claude完成的,但我希望将其开源,所以我请求它帮助我进行测试和准备,甚至创建一个持续集成(CI)来运行Python测试。 那么,我们得到了以下结果: - 阶段2A:67个静态断言(Python脚本,在CI中运行) - 阶段2B:15个行为测试(实时Claude代码会话) - 阶段2C:在3个端到端流程中进行的53个生成质量检查 所有这些都通过了,CI也通过了(经过几次尝试)。 我根据自己的提示和编码方式进行了调整,并基于kiro的SDD管理,但我希望它能公开可用,并被更多人使用。根据Claude的说法,一些测试者需要符合以下标准: 1. 从头开始启动一个全新项目的开发者 2. 有一个活跃的副项目的独立开发者(绿地项目或部分代码库) 3. 使用多个AI工具的团队负责人 4. 具有现有代码库但没有书面规格的开发者 5. 积极使用3个以上AI编码工具的开发者 这实际上是一个盲测,没有指导,您可以尝试一下,我会非常感激您的帮助。 仓库地址在这里: [https://github.com/FredAntB/Spec-Driven-Development](https://github.com/FredAntB/Spec-Driven-Development)
2作者: socratizeio大约 1 个月前原帖
我们开发了Socratize,一款基于人工智能的培训工具,让员工在真实的工作场景中进行练习,而不是观看视频或参加测验。 大多数企业培训都是被动的。人们观看内容,点击幻灯片,通过测验,但在几天内就会忘记大部分内容。 我们想尝试一种不同的方法:通过对话和重复学习。 使用Socratize,用户进入逼真的场景,并需要对AI“对手”做出回应。 例如: - 销售代表练习应对:“你的产品太贵了” - 客服代表练习平息愤怒的客户 - 员工练习用自己的话解释合规规则 AI像一个真实的对手一样回应,挑战薄弱的论点,并继续对话,直到用户改善或未能通过场景。 目标很简单:用主动练习取代被动培训。 我们使用Claude生成回应,并根据上下文和推理评估用户论点的质量。每个会话都会被存储,以便团队可以查看员工在哪些方面遇到困难,以及哪些场景最具挑战性。 技术栈: - Next.js(前端) - Node.js(后端) - PostgreSQL - Claude API 我们上周推出了最小可行产品(MVP)。 我们还处于早期阶段,非常希望得到大家的反馈: - 这种方法在培训中是否真的有意义? - 我们遗漏了哪些使用案例? - 在真实公司中,什么会导致这个方法失败? - 这是否在根本上有用,还是仅仅是“有趣但不必要”? 在这里试用: https://socratize.io 免费版,无需信用卡。 欢迎随时提问。
3作者: paulf38大约 1 个月前原帖
这只是一个小版本更新,主要是为了修复我引入的一个回归问题 :-( 以下是此次版本更新中修复或解决的错误: - 519574 valgrind 3.27 中的 "--fair-sched=yes" 无法正常工作 - 519613 Valgrind 在出错时错误地解包 sys_port (port_getn) 的结果,导致每次调用时出现约 60 秒的延迟 - n-i-bz 更新 vg-lifespan(版权)年份 - n-i-bz 在 VG_(realpath) 中使用 SSizeT 作为 VG_(readlink) 的结果
6作者: unseen_forms大约 1 个月前原帖
我在进行一个关于教授英语拼写的项目时制作了这个游戏。当时我在阅读同音词,突然意识到同音词可以多大程度上改变一个词的形状,于是我开始尝试基于这个概念的小型游戏。 我添加了一些其他的变换,比如字谜、动词/时态变化,但答案总是显得太明显。我无法足够扭曲单词,使其变得有趣。突破点在于复合词对。通过复合词从一个词跳到另一个词(例如:海 → 马,通过海马)真的模糊了路径,这时游戏突然变得有趣且不可预测。 我已经和朋友们分享了这个游戏。我在英国,所以主要是英国的测试者,提前警告一下,有几个同音词可能偏向于英式英语。 他们每天都在玩,似乎上瘾了,所以我觉得值得在这里发布。这个游戏主要是每天一个谜题,这样我实际上有时间精心挑选那些有令人满意路径的谜题。今天的谜题相对简单,但有些可以非常棘手。这个名字来源于“betwixt”,整个游戏就是关于在两个词之间移动。我后来注意到有一个60年代的桌游也叫这个名字,但它们其实是很不同的东西。
1作者: smyansondur大约 1 个月前原帖
嗨,HN,我是Smyan,我喜欢构建智能代理。现代的多模态大语言模型(LLM)在视觉和感知方面表现出色,但在定位方面却相对较弱。当我们尝试将我们的机器人流程自动化(RPA)框架交给代理以执行计算机使用任务时,这自然会造成一个巨大的问题。 对于浏览器,我们已经能够通过使用DOM树为LLM提供结构提示来解决这个问题。最近,现代浏览器使用的框架采用了“标记集合”(Set-Of-Marks)提示,这种方法将网页的结构信息转换为带标签的视觉边界框,使LLM能够利用其强大的视觉和感知能力,准确地将其转换为一种定位形式。从功能上讲,这意味着LLM现在只需说“点击4”,而不必说“点击443 213”。 然而,这种方法在我们尝试将其应用于本地操作系统自动化时效果极差。可访问性树(accessibility tree),通常存在于本地应用程序中,通常相当脆弱,暴露出非确定性的选择器,并且常常被开发者剥离,这使得定位元素变得困难。模糊匹配可以对此有所帮助,但仍然很难做到准确。 这正是我创建SoMatic的原因。SoMatic是一个纯视觉基础的框架,使用经过微调的YOLO模型(深受OmniParser v2的启发)来识别用户界面中的文本和可交互元素。YOLO模型在CPU上本地运行,使用ONNX,速度相当快。SoMatic绘制边界框和标签,然后将每个边界框的ID映射到给定框中心的坐标。这使得原则上可以对任何用户界面进行标记集合提示。 我使用该框架与GPT-5.5(高)进行了消融基准测试,发现其准确率比原始模型高出约20%。然而,令人惊讶的是,模型在仅知道边界框位置(而不实际查看它们)时表现稍好。这可能是由于YOLO模型的阈值调整导致绘制的框过多或过少(我不太确定)。 无论如何,如果你希望让你的AI代理完全自主地操作你的计算机(Windows、Mac和Linux),你可以通过以下命令下载CLI: ``` npm install -g somatic-cli/cli ``` 并添加相应的技能: ``` npx skills add Smyan1909/SoMatic ``` 如果你希望模型直接解析来自所选API的屏幕截图(以b64编码),而不是在每次截图后读取图像,CLI还附带一个标准输入输出的MCP服务器。 我很想听听你对这种纯视觉方法的反馈。我们是否终于可以放弃混乱的操作系统可访问性树来进行自动化了?