1作者: jrs23512 天前原帖
我正在努力更好地理解如今软件架构师的职位究竟在做些什么。他们只是为他人思考并制作图表,以便让别人根据这些图表来改造系统吗?还是说他们是非常技术性的商业/流程/数据分析师?
1作者: westoque12 天前原帖
我们想要实验使用100%本地模型构建一个咖啡馆点单系统的可行性。<p>我们能够使用8B的Llama作为大语言模型,以及Whisper作为文本转语音/语音转文本,构建这个演示。它是通过Kubernetes进行部署的,可以作为任何AI驱动应用程序的基础。
2作者: drawson557012 天前原帖
作者在此。我构建了一个系统,其中一个小型语言模型(qwen2.5:7b)通过反思而非权重更新进行学习。 意外的发现:模型自己发现了奥卡姆剃刀原理。 起始准确率:51.3%(零样本基线) 学习后准确率:78.0%(提高了26.7个百分点) 但这些数字并不能完全说明问题。学习日志揭示了一些深刻的内容: 第一阶段:模型幻想出复杂的解决方案(“使用区间树!”,“应用图论!”)。准确率保持在低水平(约35%)。 第二阶段:日志条目开始出现怀疑:“由于问题很简单,专注于基本的区间检查……” 第三阶段:突破——模型写道:“这表明对如何处理重叠区间存在根本性的误解。” 它承认自己错了。从那一刻起,一切都发生了变化。 蒸馏过程充当了进化选择:有效的简单想法得以存活,而失败的复杂想法则被过滤掉。 主要优势: - 完全可解释(可以阅读完整的思维过程) - 在消费级硬件上运行(无需GPU训练) - 策略是可转移的文本文档 - 模型学会怀疑自己(与AI安全相关的含义) 所有代码和论文都是开源的。该实验在笔记本电脑上大约需要40分钟来重现。 欢迎提问关于该方法、结果或实现的任何问题!