1作者: amaan-mohib6 个月前原帖
嗨,HN, 我正在开发一个名为 Delta Widgets 的项目,这是一个适用于 Windows 的桌面小部件制作工具。 这个想法是:让创建和自定义小部件变得更简单,而无需像使用 Rainmeter 那样编辑 .ini 文件或配置。您可以使用拖放构建器进行可视化设计,或者如果您想要更多控制权,也可以自己编写 HTML/CSS/JS。 一些功能包括: - 拖放小部件构建器(无需编码) - 或者从自定义 HTML/CSS 或实时 URL 加载小部件 - 支持动态数据,如时间、系统信息和媒体播放 - 预制模板,快速入门 - 基于 Tauri(Rust + 系统 WebView)构建 → 轻量、安全、原生体验 网站: [https://delta-widgets.vercel.app/](https://delta-widgets.vercel.app/) Product Hunt: [https://www.producthunt.com/products/delta-widgets?utm_source=other&utm_medium=social](https://www.producthunt.com/products/delta-widgets?utm_source=other&utm_medium=social) Peerlist: [https://peerlist.io/amaanmohib/project/delta-widgets](https://peerlist.io/amaanmohib/project/delta-widgets)
2作者: st-matskevich6 个月前原帖
我最近在进行唤醒词检测的工作,并提出了一种不同的解决方案,因此想与大家分享我所构建的内容。 我开始了一个关于智能助手的项目,使用了MCP集成在树莓派上。在唤醒词部分,我发现现有的开源解决方案相对有限。你要么使用经典的MFCC + DTW解决方案,这些方案的精度不高,要么使用基于模型的解决方案,这需要预训练模型,并且无法让用户使用自己的唤醒词。 因此,我结合了这两种方法,实施了自己的解决方案。它利用谷歌的语音嵌入技术从音频中提取语音特征,这种方法对噪声和声音音调变化具有更强的抗干扰能力,并且可以适用于不同的说话者声音。然后,这些特征与DTW进行比较,以帮助避免时间上的错位。 在高通关键词语音数据集上的基准测试显示,同一说话者的检测准确率为98.6%,而跨说话者的准确率为81.9%(尽管该模型并未专门针对这种用例设计)。将模型转换为ONNX格式后,我的树莓派的CPU使用率降低到了10%。 令人惊讶的是,我尚未看到(至少到目前为止)其他人使用这种方法。因此,我想分享这个想法,听听大家的看法——是否有人尝试过类似的方案,或者发现我可能遗漏的明显问题? GitHub - [https://github.com/st-matskevich/local-wake](https://github.com/st-matskevich/local-wake)