1作者: Kaadz22 天前原帖
嗨,HN!我开发了WatchLLM,旨在解决在构建AI代理时遇到的两个问题: 1. 调试代理非常痛苦 - 当你的代理进行20次工具调用并失败时,想要弄清楚哪个决策出错了可真是个挑战。WatchLLM提供逐步时间线,显示每个决策、工具调用和模型响应,并解释代理为何做出这些决策。 2. 代理成本迅速上升 - 代理喜欢陷入循环或重复调用昂贵的工具。WatchLLM跟踪每一步的成本,并标记异常情况,比如“检测到循环 - 相同操作重复3次,浪费了$0.012”或“高成本步骤 - $0.08超出阈值”。 核心功能: - 每个代理决策的时间线视图及成本细分 - 异常检测(循环、重复工具、高成本步骤) - 语义缓存,额外减少40-70%的LLM费用 它与OpenAI、Anthropic、Groq兼容,只需更改你的baseURL。 该工具基于ClickHouse构建,提供实时遥测,并使用向量相似性作为缓存层。代理调试器通过LLM生成的摘要解释每个步骤发生的原因。 目前,它对每月最多50,000次请求免费开放。我正在寻找早期用户,他们正在构建代理,并希望更好地观察实际发生的情况(以及相关成本)。 试试吧: [https://watchllm.dev](https://watchllm.dev) 非常希望能听到你对其他调试功能的反馈。你希望在代理出现问题时拥有哪些功能?
1作者: leoyixing22 天前原帖
嗨,HN, 我是VoGen的创始人 [https://vogen.app]。 我一直对人工智能技术的发展感到着迷,但我发现大多数现有的情感表达工具都需要昂贵的订阅费用。我创建VoGen是为了探索如何让AI语音变得更加“人性化”和可及。 它的功能包括: - **语音克隆**:您可以使用3到60秒的样本克隆一个声音。它在清晰的单人录音中效果最佳。 - **情感文本转语音(TTS)**:您可以选择快乐、愤怒、悲伤等多种情感,而不是单调的语调。 - **双语支持**:目前支持英语和普通话。 - **隐私优先工具**:我还添加了一个基于浏览器的音频速度转换器,该工具在本地处理文件——对于这个特定工具,音频数据不会离开您的设备。 **技术栈**:前端使用React.js构建,并部署在Vercel上。语音引擎使用了一个定制的管道,专注于低延迟推理,同时保持高保真度。 **为什么是免费的?** 目前,VoGen处于早期阶段(MVP)。我想了解人们如何使用它,以及社区对语音质量的期望,然后再考虑商业化。 **隐私说明**:我知道语音数据是多么敏感。我们不会使用您上传的克隆样本来训练我们的基础模型。 我非常希望能得到HN社区的反馈。无论是关于延迟、情感的自然性,还是UI/UX方面——我都非常欢迎。 您认为哪些功能会使这个工具对您的工作流程更有用?
1作者: bntr22 天前原帖
我们有无数复杂的格斗游戏,拥有极其复杂的输入系统:长按键组合、精确的时机。然而,当谈到游戏或互动系统中的舞蹈时,复杂性几乎总是消失。 舞蹈游戏通常要求你在摄像头前进行身体移动,或者踩在垫子上,或者仅仅触发一个单一的表情动画。与此同时,在像Roblox这样的平台上,玩家收集舞蹈动画,并在合适的时刻触发它们来展示自己。有时多个玩家甚至会同步他们的舞蹈,这已经有点像一个迪斯科派对。 所以让我一直困惑的问题是:为什么我们没有“舞蹈格斗者”——一种通过同样复杂的控制来掌握富有表现力和复杂性的舞蹈的系统,使用模式、时机和结构,而不是身体运动? 这个项目是朝这个方向的小实验:我正在探索通过一个基于模式的实时编码界面(Strudel)来控制角色的舞蹈动画,实时混合短动画循环。它还不是一个游戏,只是一个概念验证——但我很好奇舞蹈是否可以被视为一种技巧性、富有表现力的控制空间,就像格斗输入或音乐表演一样。
1作者: SafeDusk22 天前原帖
我经常使用 codex exec,但它内置的遥测支持不足,无法满足调试和优化的需求。<p>codex-plus 提供了一个命令行接口,镜像了 codex exec 的界面,但它是基于 TypeScript SDK(@openai/codex-sdk)实现的。<p>每次运行后,它会将完整的会话日志导出到远程的 OpenTelemetry 收集器,然后可以通过 codex-plus-log-viewer 进行调试和优化。<p>请查看 <a href="https://github.com/aperoc/codex-plus" rel="nofollow">https://github.com/aperoc/codex-plus</a>!