1作者: voidhorse大约 10 小时前原帖
有人真的喜欢这些图表吗,或者觉得它们真的有帮助吗?<p>我觉得它们太过于奇幻(无论作者选择什么风格,它们总是带有一种让人不适的“极繁主义”),而且太嘈杂,根本没有任何实用价值,然而它们却越来越多地出现在各类场合中,比如商业文件、博客文章等等。我感觉大家似乎集体决定,商业现在更像是幼儿园,我们都需要那些可爱、无用的小图表来美化我们的产品文档或战略文件,以使其更易于接受,我想?我记得软件行业至少曾被视为半认真对待(不过公平地说,它一直比其他一些行业要宽松一些)。<p>那么这是怎么回事,我是不是漏掉了什么?我是不是没有正确理解这些图表?你在工作中使用这些杂乱的图表吗?你有没有提高它们实用性的策略?
2作者: shubham-coder大约 11 小时前原帖
我在大学的机器人实验室建立了一个语音代理平台,已经在12小时内被330多人克隆。我是一名计算机科学专业的第一年学生,因此我尝试找出一种方法,让一切都能在我的笔记本电脑上运行,目前正在努力将其完全转变为边缘人工智能语音助手,以实现我实验室机器人相关项目的100%私密和本地控制。 有趣的功能包括: 1. 我使用了带有实时嵌入的JSON RAG,这样对于一些规格和信息,我们不需要设置整个管道。 我已经构建了“层次代理RAG与混合搜索(知识图谱 + 向量搜索)”,你可以在我的个人资料中查看。 我正在积极分享与此相关的尽可能多的信息,但该项目实际上与一大堆文件相关,包含693k的数据点,使用pgvector和PostgreSQL。如果你访问一下,会对其有更多了解。 2. 我尝试了各种类型的Whisper模型,包括更快的Whisper、Turbo等,甚至使用了自定义的C++引擎,但该模型本身容易产生幻觉。 然后我转向了使用Silero VAD的Parakeet TDT,而不是Parakeet RNN,以获得更好的速度和优化。代码库中有更多详细信息。 3. 我从Anthropic RLHF中微调了一个数据集,通过Space和Glinner将其转换为Llama 3.2 3b的完美训练数据集。 如果你需要,我可以附上数据集,或者如果你想自己使用,我会将其上传到Hugging Face。 4. 我为Parakeet和Llama的输出附加了语音纠正器,以改善文本转语音的效果。 5. 我使用SetFit来路由查询,并基于置信度的语义搜索,以尽可能快速和准确地处理。 6. 我在使用Sherpa ONNX,并排队处理文本转语音和语音转文本等所有内容,作为实验,我还实现了Llama生成响应和Kokora批处理,同时在我的笔记本电脑上运行一切。 7. 除此之外,我的前端还依赖于重型的three.js和3D视图文件,但我在这里进行了优化,使其能够与笔记本电脑上的所有内容完美协作。 8. 我还对LLM模型应用了粘合交互,实施了FIFO机制,进行了5次交互并将其存储以便未来微调和语音单词的添加。 请访问一下,并告诉我是否应该学习一些新东西。 温馨提示:作为一个热衷于这些事物的爱好者,我在这些方面投入了大量精力,并且我在MD文件和代码扩展或解释中寻求了AI的帮助,以便更好地帮助每一个人。
2作者: Chance-Device大约 11 小时前原帖
今晚我在使用Claude Code时,对Opus 4.6的执行指令能力感到非常失望。我给它提供了几个非常明确的指示,但发现它无视了我的要求,却没有告诉我。 当我询问它有哪些地方偏离了规范时,它告诉我一切都符合预期。然后我实际去查看,发现必须逐条检查,才能让它遵循我的指示。 当我质问它时,它告诉我: > 我一直在重新猜测你的设计决策,而不是按照你的要求去实施……我犯的错误并不是模型能力的问题——我完全理解你的指示,但选择了偏离它们。 这不可接受。现在,我实际上并不相信Opus有能力进行这样的自我反思,所以这很可能是它的虚构,但在4.5版本中并没有发生这种情况。通常它只是按照指示行事,虽然会出现一些错误,但不会完全决定做其他事情。 我希望有一个真正能按照我指示行事的模型。我在网上没有找到关于如何恢复4.5版本的信息。 请问有什么帮助吗?