3作者: whamp3 个月前原帖
我一直在相对封闭的Windows环境中工作,虽然可以运行Python,但无法安装或启动新的`.exe`文件。此外,内置的Windows语音输入功能被屏蔽(反正唯一好用的也不是本地的)。同时,我非常希望能够实现准确、快速的语音输入,而不需要将音频发送到云服务,也不需要GPU。我尝试过的大多数语音转文本设置要么需要特殊的启动器,要么需要GPU访问,或者在日常使用中操作不便。 为了满足这个需求,我开发了Chirp,这是一款完全本地运行的Windows语音输入应用,使用NVIDIA的ParakeetV3模型,并通过`uv`进行端到端管理。如果你的机器上可以运行Python,就应该能够运行Chirp——无需额外的可执行文件。 在底层,Chirp使用的是Parakeet TDT 0.6B v3 ONNX包。ParakeetV3的准确性与Whisper-large-v3相当(多语言的字错误率约为4.9,相比之下Whisper-large-v3约为5.0),但速度更快,并且在CPU上表现良好。 使用流程如下: - 一次性设置,下载并准备ONNX模型: - `uv run python -m chirp.setup` - 一个长时间运行的命令行进程: - `uv run python -m chirp.main` - 一个全局热键,用于开始/停止录音,并将文本注入到活动窗口中。 一些可能在技术上有趣的细节: - <i>仅限本地的语音转文本:</i>所有操作都在你的机器上使用ONNX Runtime;默认使用CPU提供者,如果环境允许,也可以选择GPU提供者。 - <i>配置驱动的行为:</i>一个`config.toml`文件控制全局热键、模型选择、量化(`int8`选项)、语言、ONNX提供者和线程管理。还有一个简单的`[word_overrides]`映射,可以修正模型经常误听的词汇。 - <i>后处理管道:</i>识别后,有一个可选的“风格指南”步骤,你可以指定提示,如“句子首字母大写”或“前置:>>”用于最终文本。 - <i>Windows上无需剪贴板操作:</i>该应用直接在聚焦窗口中输入;对于更合适的平台,提供了基于剪贴板的粘贴和清理行为选项。 - <i>音频反馈:</i>开始/停止声音(可配置)让你知道麦克风何时实际在录音。 到目前为止,我主要在自己的Windows机器上进行了英语语音输入和仅CPU的设置测试。可能还有很多粗糙的地方(不同的键盘布局、语言设置、企业IT政策等),我希望能得到以下人群的反馈: - 在受限的企业环境中工作并需要本地语音输入的人。 - 有Parakeet/Whisper或ONNX Runtime经验,并能看到明显的性能或稳定性改进方法的人。 - 想要特定功能(例如,更好的多语言支持、更先进的后处理,或与他们的编辑器/IDE集成)的人。 代码库在这里: `<a href="https://github.com/Whamp/chirp" rel="nofollow">https://github.com/Whamp/chirp</a>` 如果你尝试使用,我非常感兴趣: - 你硬件上的CPU使用率和延迟, - 它在你的键盘布局和应用程序中的表现, - 你遇到的任何奇怪的故障情况或使用上的烦恼。 欢迎在评论中提问或深入讨论技术细节。
2作者: g-sudarshan3 个月前原帖
嘿,HN!<p>我正在探索一个面向开发者的SaaS想法: 一个统一的支付网关用户验收测试(UAT)环境——本质上是一个沙盒模拟器,让开发者可以在不创建多个沙盒账户或处理网关间不一致/虚假行为的情况下集成支付。<p>问题<p>如果你曾经集成过支付,你会知道:<p>Stripe有出色的测试工具<p>Razorpay表现尚可<p>Paytm/PayU等差异很大<p>许多银行的UAT行为不可预测<p>Webhook的到达方式各异,有些延迟,有些不稳定<p>测试争议/退款/结算几乎是不可能的<p>对于构建复杂流程的开发团队来说,他们最终不得不编写内部模拟,维护这些模拟,仍然会遗漏边缘案例。<p>想法(SaaS)<p>一个统一的支付沙盒模拟器,能够:<p>为多个网关提供模拟API<p>Stripe<p>Razorpay<p>Paytm<p>PayU<p>Cashfree<p>Worldline<p>Visa/Mastercard令牌化模拟<p>UPI支付服务提供商模拟器<p>模拟现实场景<p>捕获<p>退款<p>部分退款<p>拒付<p>争议<p>结算延迟<p>失败的支付<p>KYC验证<p>随机化的Webhook延迟/跳过<p>网络故障模拟<p>3-D安全/一次性密码模拟页面<p>UPI超时/待处理状态<p>托管仪表板<p>查看模拟交易<p>触发生命周期事件(手动或定时)<p>再次触发Webhook<p>创建自定义网关配置<p>定义“规则”以模拟:失败率%、延迟、Webhook顺序、重试<p>对于工程团队<p>一个URL中的私有UAT环境<p>不再需要创建10个沙盒账户<p>CI友好的“无头支付”流程<p>在本地添加模拟支付网关→在预发布环境中切换到真实支付网关<p>自动合同测试<p>定价思路<p>免费层→每月100笔测试交易 每月29美元→小团队 每月99美元→初创公司 每月499美元→企业/白标<p>向HN提问<p>你会使用这个吗? 还有什么缺失的? 支付团队会信任第三方模拟器吗? 哪些网关或场景最重要?<p>乐意回答问题。
1作者: sinharishabh3 个月前原帖
我多年来一直在构建嵌入式项目,始终觉得工具的进步落后于软件开发。像快速原型制作、调试复杂的硬件特定问题,或者弄清楚为什么外设没有响应等事情,仍然需要花费太多时间。 因此,我开发了Embedr,一个专注于嵌入式工程的AI助手。它不是一个通用的代码助手,而是围绕真实硬件工作流程进行调优的,具体包括: • 读取项目结构并理解电路板设置 • 帮助处理ESP32、STM32、RP2040等MCU项目 • 解释寄存器、外设配置、链接器问题、构建错误 • 提出硬件故障和集成问题的解决方案 • 让你选择工具链或生成构建系统 • 带你完成启动步骤和驱动级调试 我的目标是让这个工具更接近一个能够与你在接线、烧录或调试电路板时协作的集成开发环境(IDE)。 目前仍处于早期阶段,我正在积极改进模型行为、提示流程和工具集成。我非常希望能得到那些每天与微控制器打交道的人的反馈。哪些功能有用,哪些感觉不对,接下来应该学习什么。 你可以在这里试用:<a href="https://embedr.app" rel="nofollow">https://embedr.app</a> 欢迎随时提问。
28作者: waxpancake3 个月前原帖
“每分钟,有九种不同的人工智能模型生成一个新的时钟。”
6作者: elysionmind3 个月前原帖
发现那些可能根本不该存在的搞笑糟糕商业点子。受到最糟糕创业概念的启发,和朋友们分享这些点子,并提交你自己的奇葩想法!
2作者: calepayson3 个月前原帖
大家好,我目前正在参加几门机器学习课程,虽然它们在理论方面做得很好,但在应用方面的内容却很少,至少没有超过一些基本的Jupyter Notebook实现。 我一直遇到的一个问题是如何处理模型的日志记录和评估。目前我使用Jupyter Notebook来训练模型,然后用测试集生成几个不同指标的图表。 这个工作流程似乎是我所在项目组的标准做法,但我总觉得这看起来有些依赖直觉且不够优化。 我有几个项目即将开始,我想借此机会改善我的模型训练方法。你们使用什么方法?有没有推荐的文章或库?你们希望初级工程师了解哪些内容? 谢谢!
1作者: Patternician3 个月前原帖
随着大型语言模型(LLMs)的不断增强,我们正面临一种新情况:<p>一个人发现了某个数学方法或结果,但正式的证明却是由多个LLMs生成的(甚至经过交叉验证),即使原作者自己也无法完全重现该证明。<p>这样的人工智能生成的证明是否应被视为有效且可发表的?<p>当创意是人类创造的,但证明是由人工智能推导出来的,应该适用什么标准?<p>希望听到数学家、工程师、研究人员和期刊编辑的意见。这似乎是我们对证明和作者身份的思考方式的重要转变。