嗨,HN,
我是VoGen的创始人 [https://vogen.app]。
我一直对人工智能技术的发展感到着迷,但我发现大多数现有的情感表达工具都需要昂贵的订阅费用。我创建VoGen是为了探索如何让AI语音变得更加“人性化”和可及。
它的功能包括:
- **语音克隆**:您可以使用3到60秒的样本克隆一个声音。它在清晰的单人录音中效果最佳。
- **情感文本转语音(TTS)**:您可以选择快乐、愤怒、悲伤等多种情感,而不是单调的语调。
- **双语支持**:目前支持英语和普通话。
- **隐私优先工具**:我还添加了一个基于浏览器的音频速度转换器,该工具在本地处理文件——对于这个特定工具,音频数据不会离开您的设备。
**技术栈**:前端使用React.js构建,并部署在Vercel上。语音引擎使用了一个定制的管道,专注于低延迟推理,同时保持高保真度。
**为什么是免费的?** 目前,VoGen处于早期阶段(MVP)。我想了解人们如何使用它,以及社区对语音质量的期望,然后再考虑商业化。
**隐私说明**:我知道语音数据是多么敏感。我们不会使用您上传的克隆样本来训练我们的基础模型。
我非常希望能得到HN社区的反馈。无论是关于延迟、情感的自然性,还是UI/UX方面——我都非常欢迎。
您认为哪些功能会使这个工具对您的工作流程更有用?
返回首页
最新
我们有无数复杂的格斗游戏,拥有极其复杂的输入系统:长按键组合、精确的时机。然而,当谈到游戏或互动系统中的舞蹈时,复杂性几乎总是消失。
舞蹈游戏通常要求你在摄像头前进行身体移动,或者踩在垫子上,或者仅仅触发一个单一的表情动画。与此同时,在像Roblox这样的平台上,玩家收集舞蹈动画,并在合适的时刻触发它们来展示自己。有时多个玩家甚至会同步他们的舞蹈,这已经有点像一个迪斯科派对。
所以让我一直困惑的问题是:为什么我们没有“舞蹈格斗者”——一种通过同样复杂的控制来掌握富有表现力和复杂性的舞蹈的系统,使用模式、时机和结构,而不是身体运动?
这个项目是朝这个方向的小实验:我正在探索通过一个基于模式的实时编码界面(Strudel)来控制角色的舞蹈动画,实时混合短动画循环。它还不是一个游戏,只是一个概念验证——但我很好奇舞蹈是否可以被视为一种技巧性、富有表现力的控制空间,就像格斗输入或音乐表演一样。
我经常使用 codex exec,但它内置的遥测支持不足,无法满足调试和优化的需求。<p>codex-plus 提供了一个命令行接口,镜像了 codex exec 的界面,但它是基于 TypeScript SDK(@openai/codex-sdk)实现的。<p>每次运行后,它会将完整的会话日志导出到远程的 OpenTelemetry 收集器,然后可以通过 codex-plus-log-viewer 进行调试和优化。<p>请查看 <a href="https://github.com/aperoc/codex-plus" rel="nofollow">https://github.com/aperoc/codex-plus</a>!