1作者: vood2 个月前原帖
嗨,HN, 我创建了AIDictation.com,这是一个用Swift编写的语音转文本应用。它将音频发送到我自己的后台,经过基于Whisper的处理流程后,返回一个转录文本,您可以直接将其发送到像ChatGPT或Claude这样的AI聊天工具中。 我已经构建全栈应用大约20年了,但这是我第一个Swift应用。我在从零开始到拥有一个可工作的应用和后台的过程中,依赖了大量的AI编码工具,仅用了几周时间。 **它的功能** 录制音频并将其发送到我的服务器。后台使用Whisper V3 Turbo + OpenAI GPT OSS 120B运行处理流程。 我故意选择了云处理流程,而不是在设备上运行模型,这样我可以: - 在后台并行处理工作并调整处理流程。 - 混合使用不同的提供商和模型。 - 在不发布新版本应用的情况下改善延迟。 转录完成后,有一个“分享至AI聊天”的流程,您可以一键将其发送到ChatGPT、Claude等。 **上下文规则** 在Whisper Flow中,我错过了可配置的上下文规则(类似于超级Whisper模式)。AIDictation允许您根据不同的场景定义转录的行为。 例如: - 会议:保留发言人姓名和时间戳。 - 编码:保留技术术语和代码格式。 - 日志记录:更加宽容,添加标点,使文本更易读。 - 您可以配置不同的预设并在它们之间切换。 **为何选择云而非设备端** 许多应用程序专注于本地运行模型。我选择了相反的权衡: - 提供商灵活性:目前我使用Groq API,因为在我的测试中,它的端到端延迟(700-800毫秒)最好,但后台是为更换提供商和模型而构建的。 - 这确实意味着音频会离开设备,因此我尽量明确说明数据处理方式。 无需注册。您可以在不创建账户或提供电子邮件的情况下,每月免费获得约2000个单词的使用额度。 **技术栈** 客户端:Swift(这是我发布的第一个真正的Swift/iOS应用)。 后台:在Vercel上使用NodeJS。 模型:Whisper V3 Turbo + OpenAI GPT OSS 120B。 提供商:目前使用Groq API,主要是出于延迟考虑。 在过去的几周里,我每天都在使用AIDictation,目前为止我对此感到满意,但我非常希望能从HN获得坦诚的反馈——无论是关于产品还是实现方面的。
1作者: fe-hyunsu2 个月前原帖
我已经发布了 MasonEffect 的一个小性能更新,这是我的轻量级粒子变形文本引擎。此次更新的重点是减少 Canvas 的读取开销,并提高不同设备上的帧稳定性。内部循环的清理和更好的缓存机制使得变形动画更加一致,尤其是在较高粒子数量的情况下。 同时,提供了一个简单的性能日志选项,供希望验证帧时间或检查更新成本的用户使用。 演示链接: https://masoneffect.com npm 链接: https://www.npmjs.com/package/masoneffect GitHub 链接: https://github.com/fe-hyunsu/masoneffect (非常感谢您的支持!) 欢迎反馈或提供进一步的优化建议。
1作者: samirahh2 个月前原帖
大家好,我正在建立一个市场平台,以连接穆斯林品牌和穆斯林女性。我希望能从其他在电子商务领域建立市场的创始人那里获得建议,同时也希望能得到关于与其他创始人建立网络的建议和支持。
2作者: level092 个月前原帖
嗨,HN!我正在构建 ReadyKit,这是一个开源的SaaS基础模板,处理所有复杂的部分:多租户工作区、Stripe计费、OAuth + MFA身份验证,以及一个生产就绪的技术栈。 ReadyKit 使用 Python/Flask、PostgreSQL、Redis 和 Vue 3 构建,旨在帮助独立开发者和团队快速推出SaaS产品。只需克隆,配置你的OAuth和Stripe密钥,5分钟内即可运行。 其功能包括自动查询范围以实现工作区隔离、审计日志、基于角色的访问控制,以及现代用户体验工具包。采用MIT许可证,永久免费。 GitHub: [https://github.com/level09/readykit](https://github.com/level09/readykit)