1作者: JannikJung21 天前原帖
简而言之:我开发了一款原生的 macOS 语音转录应用,能够在本地即时转录。文本会随着你的讲话而出现(测得的首个字符延迟约为 100 毫秒)。无需账户,无需服务器,无需追踪。 <p>链接: • 网站: <a href="https:&#x2F;&#x2F;dictly.app" rel="nofollow">https:&#x2F;&#x2F;dictly.app</a> • Mac 应用商店: <a href="https:&#x2F;&#x2F;apps.apple.com&#x2F;de&#x2F;app&#x2F;dictly-no-keys-just-clarity&#x2F;id6752733596">https:&#x2F;&#x2F;apps.apple.com&#x2F;de&#x2F;app&#x2F;dictly-no-keys-just-clarity&#x2F;id...</a> • 免费下载;可选的专业版(管道、无限历史记录等) <p>功能介绍 <p>实时转录——在你讲话时流式显示文本,而不是在你停止后。 快速捕捉叠加(macOS)——全局热键,可将文本粘贴到任何应用程序/字段中。 自定义管道——本地后处理步骤,用于清理、标点或风格规范。 词典配置文件——教授领域术语(名称、品牌、代码标记等)。 本地分析——查看节省的时间与打字的对比(在设备上计算,从不发送到任何地方)。 <p>开发原因 <p>我希望语音转录能够像打字一样即时且可靠。大多数工具会将音频流传输到服务器;我想要的是一种从不离开机器的解决方案。 <p>构建方式(高层次) <p>使用 Swift 和 Apple 的语音/机器学习框架。 流式音频捕捉 → 设备内识别 → 本地管道 → 粘贴到活动应用中。 在关闭 Wi-Fi 的情况下也能工作;转录过程中没有网络请求。 <p>与内置功能的不同之处 <p>始终在设备上运行 + 流式处理,具有可在任何应用中使用的全局叠加。 通过管道实现可扩展、确定性的清理(不是黑箱云)。 每个项目的词典可用于处理行话和专有名词。 <p>初步数据 <p>延迟:在现代 Mac 上的典型条件下,语音开始后的首个可见字符延迟约为 100 毫秒。 隐私:零遥测;无需账户;无后台同步。所有内容均保持本地。 <p>权衡(提前说明) <p>准确性取决于麦克风和环境(这并不意外)。 对于奇怪的专有名词/行话,你可能需要一个词典配置文件。 强烈的背景噪音会降低结果质量(管道的处理能力有限)。 <p>我希望从 HN 获得的反馈 <p>不同硬件上的性能印象。 失败案例(口音、缩略词、编码、会议)。 你实际会使用的管道想法(例如,Markdown 格式、代码块保护、风格规则)。 集成愿望:CLI?快捷方式操作?特定编辑器的助手? <p>我是一个独立开发者。 乐意回答具体问题并快速修复。 如果你发现模糊的说法,请指出来。