2作者: st-matskevich6 个月前原帖
我最近在进行唤醒词检测的工作,并提出了一种不同的解决方案,因此想与大家分享我所构建的内容。 我开始了一个关于智能助手的项目,使用了MCP集成在树莓派上。在唤醒词部分,我发现现有的开源解决方案相对有限。你要么使用经典的MFCC + DTW解决方案,这些方案的精度不高,要么使用基于模型的解决方案,这需要预训练模型,并且无法让用户使用自己的唤醒词。 因此,我结合了这两种方法,实施了自己的解决方案。它利用谷歌的语音嵌入技术从音频中提取语音特征,这种方法对噪声和声音音调变化具有更强的抗干扰能力,并且可以适用于不同的说话者声音。然后,这些特征与DTW进行比较,以帮助避免时间上的错位。 在高通关键词语音数据集上的基准测试显示,同一说话者的检测准确率为98.6%,而跨说话者的准确率为81.9%(尽管该模型并未专门针对这种用例设计)。将模型转换为ONNX格式后,我的树莓派的CPU使用率降低到了10%。 令人惊讶的是,我尚未看到(至少到目前为止)其他人使用这种方法。因此,我想分享这个想法,听听大家的看法——是否有人尝试过类似的方案,或者发现我可能遗漏的明显问题? GitHub - [https://github.com/st-matskevich/local-wake](https://github.com/st-matskevich/local-wake)
5作者: Sean-Der6 个月前原帖
我已经在让WebRTC与嵌入式设备的结合变得更简单方面工作了几年。这是一个将这些想法汇集在一起的黑客马拉松项目。我希望其他人能在此基础上进行开发,或者受到启发去玩弄硬件。我和另外两个人一起参与了这个项目,过程中有很多有趣的想法产生。 * 可扩展/可修改 - 我尽量保持代码的简单性,以便其他人可以轻松地分叉或修改。 * 用光进行沟通。通过函数调用来改变灯泡的状态,使其能够匹配你的情绪或感受。 * 从你控制的客户端获取信息。我想尝试让它引导你回顾昨天或今天的情况。 * 手机作为控制中心。设置新设备可能会令人沮丧。我喜欢这个项目不需要任何WiFi设置,它只是通过你的手机进行路由。而且很酷的是,这个设备上实际上没有任何敏感数据。
9作者: ramkrishna29106 个月前原帖
柠檬水(Lemonade)是一个开源的SDK和本地大语言模型(LLM)服务器,旨在让用户能够轻松地在自己的PC上运行和实验大型语言模型,特别针对NPU(Ryzen™ AI)和GPU(Strix Halo和Radeon™)提供了加速路径。 <p>为什么要选择柠檬水?</p> 本地LLM服务堆栈需要具备三种特性,而市场上的领导者(如Ollama、LM Studio或单独使用llama.cpp)都无法提供这三种特性: 1. 为用户的硬件使用最佳后端,即使这意味着需要集成多个推理引擎(如llama.cpp、ONNXRuntime等)或自定义构建(例如,使用ROC的llama.cpp beta版本)。 2. 从用户和开发者的入门到应用集成再到高性能,整个过程都要零摩擦。 3. 坚持开源原则并与社区合作。 <p>柠檬水概述:</p> 简单的LLM服务:柠檬水是一个即插即用的本地服务器,提供与OpenAI兼容的API,因此任何与OpenAI端点通信的应用或工具都可以“直接使用”柠檬水的本地模型。 性能聚焦:由llama.cpp(支持Vulkan和ROCm的GPU)和ONNXRuntime(支持Ryzen AI的NPU和iGPU)驱动,柠檬水能够充分发挥您PC的性能,无需额外的代码或黑客手段。 跨平台:Windows一键安装程序(带GUI),Linux可通过pip或源代码安装。 自带模型:支持GGUF和ONNX。开箱即用Gemma、Llama、Qwen、Phi等模型。轻松管理、拉取和切换模型。 完整SDK:提供用于LLM生成的Python API和用于基准测试/测试的CLI。 开源:采用Apache 2.0许可证(核心服务器和SDK),无功能限制,无企业“陷阱”。所有服务器/API逻辑和性能代码完全开放;某些NPU依赖的软件是专有的,但我们努力实现尽可能多的开放性(详情请见我们的GitHub)。与GGML、Hugging Face和ROCm/TheRock积极合作。 <p>开始使用:</p> Windows?从<a href="https://lemonade-server.ai/" rel="nofollow">https://lemonade-server.ai/</a>下载最新的GUI安装程序。 Linux?通过pip或源代码安装(<a href="https://lemonade-server.ai/" rel="nofollow">https://lemonade-server.ai/</a>)。 文档:<a href="https://lemonade-server.ai/docs/" rel="nofollow">https://lemonade-server.ai/docs/</a>。 Discord交流/支持/反馈:<a href="https://discord.gg/5xXzkMu8Zk" rel="nofollow">https://discord.gg/5xXzkMu8Zk</a>。 <p>如何使用?</p> 从开始菜单点击柠檬水服务器。 在浏览器中打开http://localhost:8000,访问带有聊天、设置和模型管理的网页界面。 将任何与OpenAI兼容的应用(如聊天机器人、编码助手、GUI等)指向http://localhost:8000/api/v1。 使用CLI运行/加载/管理模型,监控使用情况,并调整温度、top-p和top-k等设置。 通过Python API集成,直接在自己的应用或研究中访问。 <p>适合谁?</p> 开发者:使用标准化API和零设备特定代码将LLM集成到您的应用中,使用流行的工具和框架。 LLM爱好者,随插即用: Morphik AI(上下文RAG/PDF问答) Open WebUI(现代本地聊天界面) Continue.dev(VS Code AI编码助手) ……还有许多其他集成正在进行中! 注重隐私的用户:无需云调用,所有内容均在本地运行,包括如果您的硬件支持的高级多模态模型。 <p>为什么这很重要?</p> 每个月,新的本地模型(如Qwen3 MOEs和Gemma 3)正逐渐接近云LLM的能力。我们预测,出于成本原因,很多LLM的使用将转向本地。 将您的数据和AI工作流程保留在自己的硬件上,终于变得实用、快速且私密,无供应商锁定,无持续的API费用,也无需将敏感信息发送到远程服务器。 柠檬水降低了运行这些下一代模型的摩擦,无论您是想实验、构建还是在边缘部署。 我们期待您的反馈! 您在AMD硬件上运行LLM吗?缺少什么?有什么问题?您希望看到什么?是否有来自Ollama、LM Studio或其他工具的痛点希望我们解决? 分享您的故事、问题或意见。 <p>链接:</p> 下载与文档:<a href="https://lemonade-server.ai/" rel="nofollow">https://lemonade-server.ai/</a>。 GitHub:<a href="https://github.com/lemonade-sdk/lemonade" rel="nofollow">https://github.com/lemonade-sdk/lemonade</a>。 Discord:<a href="https://discord.gg/5xXzkMu8Zk" rel="nofollow">https://discord.gg/5xXzkMu8Zk</a>。 感谢HN!