我在大学的机器人实验室建立了一个语音代理平台,已经在12小时内被330多人克隆。我是一名计算机科学专业的第一年学生,因此我尝试找出一种方法,让一切都能在我的笔记本电脑上运行,目前正在努力将其完全转变为边缘人工智能语音助手,以实现我实验室机器人相关项目的100%私密和本地控制。
有趣的功能包括:
1. 我使用了带有实时嵌入的JSON RAG,这样对于一些规格和信息,我们不需要设置整个管道。
我已经构建了“层次代理RAG与混合搜索(知识图谱 + 向量搜索)”,你可以在我的个人资料中查看。
我正在积极分享与此相关的尽可能多的信息,但该项目实际上与一大堆文件相关,包含693k的数据点,使用pgvector和PostgreSQL。如果你访问一下,会对其有更多了解。
2. 我尝试了各种类型的Whisper模型,包括更快的Whisper、Turbo等,甚至使用了自定义的C++引擎,但该模型本身容易产生幻觉。
然后我转向了使用Silero VAD的Parakeet TDT,而不是Parakeet RNN,以获得更好的速度和优化。代码库中有更多详细信息。
3. 我从Anthropic RLHF中微调了一个数据集,通过Space和Glinner将其转换为Llama 3.2 3b的完美训练数据集。
如果你需要,我可以附上数据集,或者如果你想自己使用,我会将其上传到Hugging Face。
4. 我为Parakeet和Llama的输出附加了语音纠正器,以改善文本转语音的效果。
5. 我使用SetFit来路由查询,并基于置信度的语义搜索,以尽可能快速和准确地处理。
6. 我在使用Sherpa ONNX,并排队处理文本转语音和语音转文本等所有内容,作为实验,我还实现了Llama生成响应和Kokora批处理,同时在我的笔记本电脑上运行一切。
7. 除此之外,我的前端还依赖于重型的three.js和3D视图文件,但我在这里进行了优化,使其能够与笔记本电脑上的所有内容完美协作。
8. 我还对LLM模型应用了粘合交互,实施了FIFO机制,进行了5次交互并将其存储以便未来微调和语音单词的添加。
请访问一下,并告诉我是否应该学习一些新东西。
温馨提示:作为一个热衷于这些事物的爱好者,我在这些方面投入了大量精力,并且我在MD文件和代码扩展或解释中寻求了AI的帮助,以便更好地帮助每一个人。
返回首页
最新
几天前,我分享了一个包含确定性 NDJSON 事件日志和明确缺失数据处理的仓库(v1.1),并请求进行合理性检查。<p>我现在已经更新了这个仓库,包含在一个更新模型下生成的相同两个场景(v1.2)。<p>这个仓库仍然故意只包含 NDJSON 文件——没有代码,没有用户界面:<p>• 一次正常运行
• 一次故意缺失数据的运行<p>在 v1.1 中,缺失数据通过明确的导出时间缺口标记表示。在 v1.2 中,相同的场景在结构上以段级别表示,验证器相应地报告部分结果。<p>保证条件没有变化(确定性排序、防篡改链、明确缺失数据检测)。<p>我仍然不确定与现有方法相比,这在实际应用中有多大用处,但我想分享更新的文档,以防有人感兴趣。<p>仓库链接: <a href="https://github.com/yupme-bot/kernel-ndjson-proofs" rel="nofollow">https://github.com/yupme-bot/kernel-ndjson-proofs</a>
嗨,HN
我开发了anypanel,这是一个轻量级的KPI仪表板,专为那些希望快速了解“应用状态”的SaaS创始人而设计。
当你在运营一个小型产品时,实际上每天需要关注的数字通常很简单(注册用户、激活率、日活跃用户、收入、错误数)。令人烦恼的是,这些数据分散在不同的工具中,最终你要么根本不去查看,要么浪费时间去拼凑这些数据。
anypanel的功能:
- 你可以通过简单的API调用(或一个小的JS代码片段)发送指标/事件
- anypanel会存储这些数据,并将其转化为一个干净的仪表板:KPI卡片、时间序列图、目标
- 专为你关心的5到10个指标而设计,而不是全面的分析工具
为什么:
我想要一个可以在手机上打开并一眼就能得到答案的工具:“今天我们的状态是上升、下降,还是崩溃?”
适用对象:
技术型独立创始人/小团队,他们希望养成每日查看KPI的习惯,而不需要复杂的数据堆栈。
链接: [https://anypanel.io](https://anypanel.io)
我很想听听大家的反馈:
- 你希望在“30秒仪表板”上看到哪些具体指标?
- 有什么因素会阻止你使用这样的工具(信任、设置、缺少集成等)?
两个剪切路径,位于导航栏上:<p>- 第一个剪切路径是一个圆形(左上角)
- 第二个剪切路径是一个多边形,像一束光线(硬编码,可以改进)<p>原作由 Iventions Events 提供 <a href="https://iventions.com" rel="nofollow">https://iventions.com</a>,使用了 JavaScript,但我发现仅用 CSS 的方法更有趣<p>这是一个演示和代码库: <a href="https://github.com/Momciloo/fun-with-clip-path" rel="nofollow">https://github.com/Momciloo/fun-with-clip-path</a>
作为一名长期从事编程的开发者,这一切让我感到有些不对劲,但同时也充满了活力。Vibe在几天内反复开发了这个项目,从零到一百。我并不打算进一步开发它,因为它的本质显而易见;我非常希望能参与一个有许可证的游戏项目,并将我各种各样的想法付诸实践,因为这只是我想要的那种游戏的10%。不过我听说,获得许可证的费用非常高。
抛开对人工智能的羞愧感,这确实让我在短时间内探索了很多东西,感觉很好,几乎足以弥补我最初使用人工智能时的羞愧感。
WebGPU并不在这个项目中,尽管它在另一个实验版本中有,部分确实是用Rust编写的(游戏逻辑)。
它具有:
- 锁定延迟/宽限期(允许15步移动)
- DAS(延迟自动移动)和ARR(连续移动的自动重复率)用于水平和软下落移动
- SRS墙壁踢(超级旋转系统)用于原地旋转方块
- 在主屏幕上使用Shift+Enter进行“隐藏”关卡选择
- Shift+D用于调试/性能指示面板
- 包括7袋和NES随机生成器在内的多种随机生成器
- 带有难度(时间)模式的连击系统(默认简单) - x2: 双重打击,x5: 连锁反应,x7: 超级连击,x9: 磷光过载,x10+: 临界质量
- 随时间变化的背景,或使用SHIFT+B更改背景(B键开关),背景会对音乐(FFT!)和你清除行时的游戏玩法做出反应
- 游戏场地的正常和两种磷光渲染模式(按R键切换)
- CRT滤镜(按Shift+C切换)
- F键切换全屏
- A键为上一首歌,S键暂停歌曲,D键为下一首歌(所有歌曲当然都是用Suno制作的)
- 还有更多功能。
这绝对是一次有趣的体验,只是不太确定该如何看待它。一方面,我明白没有我的输入,它不会看起来像现在这样,而这也确实让我感到像是在工作(长时间查看输出、纠正等),但另一方面,我又觉得自己并没有真正独立创造什么。不过,我确实玩得很开心。
顺便说一下,我还创建了一个小演示,目前还不是游戏:<a href="https://www.susmel.com/rolly/" rel="nofollow">https://www.susmel.com/rolly/</a>,还有一个可以玩参数曲线的项目:<a href="https://www.susmel.com/graphy/" rel="nofollow">https://www.susmel.com/graphy/</a>。
这一切都是在我们迎来第三个孩子的几天内完成的。未来很奇怪,我仍然不确定自己是否喜欢它。有一点是肯定的——它将会存在。再见了,我的朋友们!
嘿,HN,<p>我是一名印度高中生,目前正在为JEE做准备,觉得在这里分享一下我的经历挺不错的。<p>三年前,在9/10年级时,我对编程产生了兴趣,自己学习并用LLVM制作了一个自定义编译器,试图学习C++。我花了很多时间从文档中学习LLVM和C++。这并不是一项了不起的工程,<p>它包含了:<p><pre><code> - 基本类型,如bool、int、double、float、char等,支持类型转换
- 变量、数组、赋值运算符和简写
- 条件语句(if/else-if/else)、运算符(与/或)、算术运算(括号等)
- 数组和索引相关内容
- C风格的循环(for/while)以及break/continue
- 结构体和点访问
- 使用“extern”关键字进行C语言互操作
</code></pre>
我遇到的一些挑战:<p><pre><code> - Emscripten和WASM,因为我还需要让它在我的演示网站上运行
- 学习TypeScript以及网站开发(哈哈)
- 自定义解析器,带有基本的错误报告和语义分析,对我这个尚未成熟的大脑来说是一大挑战
- 从文档中学习LLVM
</code></pre>
重要的收获:<p><pre><code> - 测试是软件开发中非常重要的一环,我跳过了这一步——非常遗憾
- 学习计算机如何解释文本
- 编程对我来说是一次全新的体验
- 我开始欣赏unique_ptr和所有权管理
</code></pre>
GitHub: <a href="https://github.com/xeouz/virec" rel="nofollow">https://github.com/xeouz/virec</a><p>它在我的GitHub上,并且有一个指向我网页演示的链接(<a href="https://vire-lang.web.app/" rel="nofollow">https://vire-lang.web.app/</a>),从Firebase加载二进制文件可能需要一些时间。<p>代码量非常庞大,约7500行,我非常欢迎任何反馈、批评或建议,告诉我如何做得更好。