返回首页
一周热榜
多年来,我一直想启动一个播客,采访那些在创作追求中充满好奇和热情的创作者。<p>我非常欢迎任何反馈和评分,如果你知道谁会是一个很好的嘉宾,请告诉我!
我分享一个研究级的开源交易执行框架,该框架在普通硬件上实现了890纳秒的中位端到端决策延迟。<p>该项目旨在用于教育、系统研究和延迟测量,而非实时交易。它专注于深入理解交易执行路径中每一个纳秒的去向。<p>主要特点:<p>- 内核旁路网络:通过自定义驱动程序直接访问用户空间的网络接口卡(NIC),接收延迟为20-50纳秒
- 无锁单生产者单消费者(SPSC)/多生产者单消费者(MPSC)队列:零拷贝架构
- SIMD特征提取:使用AVX-512,每次更新约40纳秒
- 确定性重放:位相同的执行路径,经过SHA-256验证
- 纳秒级指标:完整的审计日志和性能仪表板<p>技术栈:C++17和Rust,支持NUMA的内存分配,缓存行对齐,热路径的内联汇编。<p>该框架是模块化的,允许对不同的NIC驱动程序、特征提取管道或订单流模型(如霍克斯过程或阿维拉纳达-斯托伊科夫逻辑)进行实验。一切都是开源的,并且有详细文档。<p>链接:<p>实时演示: <a href="https://submicro.krishnabajpai.me/" rel="nofollow">https://submicro.krishnabajpai.me/</a>
源代码: <a href="https://github.com/krish567366/submicro-execution-engine" rel="nofollow">https://github.com/krish567366/submicro-execution-engine</a>
裸金属NIC驱动程序: <a href="https://baremetalnic.krishnabajpai.me/" rel="nofollow">https://baremetalnic.krishnabajpai.me/</a><p>我欢迎任何从事低延迟系统、网络或高频交易研究的人的反馈。<p>讨论问题:<p>- 执行路径中通常最难优化的部分是哪个?
- 你信任哪些测量技术用于亚微秒系统?<p>该项目仅用于研究和教育目的。它不连接到交易所或执行真实交易。它旨在作为一个沙盒,以理解超低延迟执行。<p>我乐意回答有关方法、性能或设计权衡的问题。
PhotoToVideoAI 是一款基于人工智能的工具,可以将您的照片转换为动态视频。您只需上传一张照片和一个提示,约30秒后即可获得高质量的视频,分辨率高达1080p,时长为5或10秒。该工具专为内容创作者、营销人员和摄影师设计,欢迎反馈!
Tambourine 是一个开源、完全可定制的语音听写系统,允许您控制语音转文本(STT)/自动语音识别(ASR)、大型语言模型(LLM)的格式和插入干净文本的提示,以便在任何应用中使用。
我在这方面已经花了几周时间进行开发。促使我开发这个项目的原因是希望拥有一个可定制的 Wispr Flow 版本,能够完全控制模型、格式和系统行为,而不是依赖一个黑箱。
Tambourine 是直接建立在 Pipecat 之上的,依赖于其模块化的语音代理框架。后端是一个本地的 Python 服务器,利用 Pipecat 将 STT 和 LLM 模型整合成一个单一的管道。这种模块化特性使得更换服务提供商、尝试不同的设置以及对语音 AI 进行精细控制变得简单。
我与朋友分享了一个早期版本,并在本地的 Claude Code 聚会上进行了展示。反馈非常积极,大家鼓励我更广泛地分享这个项目。
桌面应用是使用 Tauri 构建的。前端使用 TypeScript 编写,而 Tauri 层则使用 Rust 处理低级系统集成。这使得能够注册全局热键、管理音频设备,并在 Windows 和 macOS 上可靠地在光标处输入文本。
从高层次来看,Tambourine 为您的操作系统提供了一个通用的语音接口。您按下全局热键,讲话,格式化的文本会直接在光标处输入。它可以在电子邮件、文档、聊天应用、代码编辑器和终端中使用。
在底层,音频通过 WebRTC 从 TypeScript 前端流式传输到 Python 服务器。服务器使用可配置的 STT 提供商进行实时转录,然后将转录文本传递给一个 LLM,该模型去除填充词、添加标点,并应用自定义格式规则和个人词典。STT 和 LLM 提供商以及提示可以在不重启应用的情况下进行切换。
该项目仍在积极开发中。我正在处理边缘案例并完善用户体验,可能会有一些重大变更,但大部分核心功能已经运行良好,并已成为我日常工作流程的一部分。
我非常希望能得到反馈,特别是来自对语音作为接口未来感兴趣的朋友们。