返回首页
最新
简而言之:我开发了一款原生的 macOS 语音转录应用,能够在本地即时转录。文本会随着你的讲话而出现(测得的首个字符延迟约为 100 毫秒)。无需账户,无需服务器,无需追踪。
<p>链接:
• 网站: <a href="https://dictly.app" rel="nofollow">https://dictly.app</a>
• Mac 应用商店: <a href="https://apps.apple.com/de/app/dictly-no-keys-just-clarity/id6752733596">https://apps.apple.com/de/app/dictly-no-keys-just-clarity/id...</a>
• 免费下载;可选的专业版(管道、无限历史记录等)
<p>功能介绍
<p>实时转录——在你讲话时流式显示文本,而不是在你停止后。
快速捕捉叠加(macOS)——全局热键,可将文本粘贴到任何应用程序/字段中。
自定义管道——本地后处理步骤,用于清理、标点或风格规范。
词典配置文件——教授领域术语(名称、品牌、代码标记等)。
本地分析——查看节省的时间与打字的对比(在设备上计算,从不发送到任何地方)。
<p>开发原因
<p>我希望语音转录能够像打字一样即时且可靠。大多数工具会将音频流传输到服务器;我想要的是一种从不离开机器的解决方案。
<p>构建方式(高层次)
<p>使用 Swift 和 Apple 的语音/机器学习框架。
流式音频捕捉 → 设备内识别 → 本地管道 → 粘贴到活动应用中。
在关闭 Wi-Fi 的情况下也能工作;转录过程中没有网络请求。
<p>与内置功能的不同之处
<p>始终在设备上运行 + 流式处理,具有可在任何应用中使用的全局叠加。
通过管道实现可扩展、确定性的清理(不是黑箱云)。
每个项目的词典可用于处理行话和专有名词。
<p>初步数据
<p>延迟:在现代 Mac 上的典型条件下,语音开始后的首个可见字符延迟约为 100 毫秒。
隐私:零遥测;无需账户;无后台同步。所有内容均保持本地。
<p>权衡(提前说明)
<p>准确性取决于麦克风和环境(这并不意外)。
对于奇怪的专有名词/行话,你可能需要一个词典配置文件。
强烈的背景噪音会降低结果质量(管道的处理能力有限)。
<p>我希望从 HN 获得的反馈
<p>不同硬件上的性能印象。
失败案例(口音、缩略词、编码、会议)。
你实际会使用的管道想法(例如,Markdown 格式、代码块保护、风格规则)。
集成愿望:CLI?快捷方式操作?特定编辑器的助手?
<p>我是一个独立开发者。
乐意回答具体问题并快速修复。
如果你发现模糊的说法,请指出来。