1作者: westoque3 个月前原帖
我们想要实验使用100%本地模型构建一个咖啡馆点单系统的可行性。<p>我们能够使用8B的Llama作为大语言模型,以及Whisper作为文本转语音/语音转文本,构建这个演示。它是通过Kubernetes进行部署的,可以作为任何AI驱动应用程序的基础。
2作者: drawson55703 个月前原帖
作者在此。我构建了一个系统,其中一个小型语言模型(qwen2.5:7b)通过反思而非权重更新进行学习。 意外的发现:模型自己发现了奥卡姆剃刀原理。 起始准确率:51.3%(零样本基线) 学习后准确率:78.0%(提高了26.7个百分点) 但这些数字并不能完全说明问题。学习日志揭示了一些深刻的内容: 第一阶段:模型幻想出复杂的解决方案(“使用区间树!”,“应用图论!”)。准确率保持在低水平(约35%)。 第二阶段:日志条目开始出现怀疑:“由于问题很简单,专注于基本的区间检查……” 第三阶段:突破——模型写道:“这表明对如何处理重叠区间存在根本性的误解。” 它承认自己错了。从那一刻起,一切都发生了变化。 蒸馏过程充当了进化选择:有效的简单想法得以存活,而失败的复杂想法则被过滤掉。 主要优势: - 完全可解释(可以阅读完整的思维过程) - 在消费级硬件上运行(无需GPU训练) - 策略是可转移的文本文档 - 模型学会怀疑自己(与AI安全相关的含义) 所有代码和论文都是开源的。该实验在笔记本电脑上大约需要40分钟来重现。 欢迎提问关于该方法、结果或实现的任何问题!
1作者: bluelightning2k3 个月前原帖
Windsurf的SWE-1.5非常出色,我也听说Cursor的型号表现不错。不过,我心中有一个挥之不去的感觉:使用基础模型而不给予信用是不可接受的。我知道他们在后期训练和优化推理方面做了很多工作,但使用像大型语言模型(LLM)这样重要的工具却不给予任何信用,感觉非常不妥。我想问的是,这种做法怎么能被认为是合理的,无论许可证允许什么。