返回首页
最新
我开发了 depup,这是一个命令行工具,用于扫描 Python 依赖项、检查 PyPI 版本、评估升级影响,并支持持续集成工作流。<p>文档:<a href="https://saran-damm.github.io/depup/" rel="nofollow">https://saran-damm.github.io/depup/</a>
代码库:<a href="https://github.com/saran-damm/depup/" rel="nofollow">https://github.com/saran-damm/depup/</a>
你在做什么工作?有没有什么新的想法在考虑中?
Tambourine 是一个开源、完全可定制的语音听写系统,允许您控制语音转文本(STT)/自动语音识别(ASR)、大型语言模型(LLM)的格式和插入干净文本的提示,以便在任何应用中使用。
我在这方面已经花了几周时间进行开发。促使我开发这个项目的原因是希望拥有一个可定制的 Wispr Flow 版本,能够完全控制模型、格式和系统行为,而不是依赖一个黑箱。
Tambourine 是直接建立在 Pipecat 之上的,依赖于其模块化的语音代理框架。后端是一个本地的 Python 服务器,利用 Pipecat 将 STT 和 LLM 模型整合成一个单一的管道。这种模块化特性使得更换服务提供商、尝试不同的设置以及对语音 AI 进行精细控制变得简单。
我与朋友分享了一个早期版本,并在本地的 Claude Code 聚会上进行了展示。反馈非常积极,大家鼓励我更广泛地分享这个项目。
桌面应用是使用 Tauri 构建的。前端使用 TypeScript 编写,而 Tauri 层则使用 Rust 处理低级系统集成。这使得能够注册全局热键、管理音频设备,并在 Windows 和 macOS 上可靠地在光标处输入文本。
从高层次来看,Tambourine 为您的操作系统提供了一个通用的语音接口。您按下全局热键,讲话,格式化的文本会直接在光标处输入。它可以在电子邮件、文档、聊天应用、代码编辑器和终端中使用。
在底层,音频通过 WebRTC 从 TypeScript 前端流式传输到 Python 服务器。服务器使用可配置的 STT 提供商进行实时转录,然后将转录文本传递给一个 LLM,该模型去除填充词、添加标点,并应用自定义格式规则和个人词典。STT 和 LLM 提供商以及提示可以在不重启应用的情况下进行切换。
该项目仍在积极开发中。我正在处理边缘案例并完善用户体验,可能会有一些重大变更,但大部分核心功能已经运行良好,并已成为我日常工作流程的一部分。
我非常希望能得到反馈,特别是来自对语音作为接口未来感兴趣的朋友们。