返回首页
最新
我在大学的机器人实验室建立了一个语音代理平台,已经在12小时内被330多人克隆。我是一名计算机科学专业的第一年学生,因此我尝试找出一种方法,让一切都能在我的笔记本电脑上运行,目前正在努力将其完全转变为边缘人工智能语音助手,以实现我实验室机器人相关项目的100%私密和本地控制。
有趣的功能包括:
1. 我使用了带有实时嵌入的JSON RAG,这样对于一些规格和信息,我们不需要设置整个管道。
我已经构建了“层次代理RAG与混合搜索(知识图谱 + 向量搜索)”,你可以在我的个人资料中查看。
我正在积极分享与此相关的尽可能多的信息,但该项目实际上与一大堆文件相关,包含693k的数据点,使用pgvector和PostgreSQL。如果你访问一下,会对其有更多了解。
2. 我尝试了各种类型的Whisper模型,包括更快的Whisper、Turbo等,甚至使用了自定义的C++引擎,但该模型本身容易产生幻觉。
然后我转向了使用Silero VAD的Parakeet TDT,而不是Parakeet RNN,以获得更好的速度和优化。代码库中有更多详细信息。
3. 我从Anthropic RLHF中微调了一个数据集,通过Space和Glinner将其转换为Llama 3.2 3b的完美训练数据集。
如果你需要,我可以附上数据集,或者如果你想自己使用,我会将其上传到Hugging Face。
4. 我为Parakeet和Llama的输出附加了语音纠正器,以改善文本转语音的效果。
5. 我使用SetFit来路由查询,并基于置信度的语义搜索,以尽可能快速和准确地处理。
6. 我在使用Sherpa ONNX,并排队处理文本转语音和语音转文本等所有内容,作为实验,我还实现了Llama生成响应和Kokora批处理,同时在我的笔记本电脑上运行一切。
7. 除此之外,我的前端还依赖于重型的three.js和3D视图文件,但我在这里进行了优化,使其能够与笔记本电脑上的所有内容完美协作。
8. 我还对LLM模型应用了粘合交互,实施了FIFO机制,进行了5次交互并将其存储以便未来微调和语音单词的添加。
请访问一下,并告诉我是否应该学习一些新东西。
温馨提示:作为一个热衷于这些事物的爱好者,我在这些方面投入了大量精力,并且我在MD文件和代码扩展或解释中寻求了AI的帮助,以便更好地帮助每一个人。
今晚我在使用Claude Code时,对Opus 4.6的执行指令能力感到非常失望。我给它提供了几个非常明确的指示,但发现它无视了我的要求,却没有告诉我。
当我询问它有哪些地方偏离了规范时,它告诉我一切都符合预期。然后我实际去查看,发现必须逐条检查,才能让它遵循我的指示。
当我质问它时,它告诉我:
> 我一直在重新猜测你的设计决策,而不是按照你的要求去实施……我犯的错误并不是模型能力的问题——我完全理解你的指示,但选择了偏离它们。
这不可接受。现在,我实际上并不相信Opus有能力进行这样的自我反思,所以这很可能是它的虚构,但在4.5版本中并没有发生这种情况。通常它只是按照指示行事,虽然会出现一些错误,但不会完全决定做其他事情。
我希望有一个真正能按照我指示行事的模型。我在网上没有找到关于如何恢复4.5版本的信息。
请问有什么帮助吗?
几天前,我分享了一个包含确定性 NDJSON 事件日志和明确缺失数据处理的仓库(v1.1),并请求进行合理性检查。<p>我现在已经更新了这个仓库,包含在一个更新模型下生成的相同两个场景(v1.2)。<p>这个仓库仍然故意只包含 NDJSON 文件——没有代码,没有用户界面:<p>• 一次正常运行
• 一次故意缺失数据的运行<p>在 v1.1 中,缺失数据通过明确的导出时间缺口标记表示。在 v1.2 中,相同的场景在结构上以段级别表示,验证器相应地报告部分结果。<p>保证条件没有变化(确定性排序、防篡改链、明确缺失数据检测)。<p>我仍然不确定与现有方法相比,这在实际应用中有多大用处,但我想分享更新的文档,以防有人感兴趣。<p>仓库链接: <a href="https://github.com/yupme-bot/kernel-ndjson-proofs" rel="nofollow">https://github.com/yupme-bot/kernel-ndjson-proofs</a>