返回首页
最新
嗨,HN,
我发布了 DeepBrainz-R1——一系列以推理为核心的小型语言模型(SLMs),旨在用于生产中的自主系统。
核心理念很简单:自主系统不会只询问一次——它们会反复推理(工具调用、验证循环、重试、受限于模式的输出)。这改变了可靠性和成本的要求,而大型聊天优化的语言模型往往在这方面表现不佳。
DeepBrainz-R1 模型经过后训练,以改善多步骤推理行为、输出稳定性和在自主工作负载下的鲁棒性。我们的重点不在于聊天或创意写作,而是在小参数规模下进行可预测的推理。
模型包括:
- R1-4B(旗舰版)
- R1-2B(低延迟/成本)
- R1-0.6B-v2(小型、本地/边缘代理)
- 实验性长上下文变体(16K/40K)
所有内容都是开放的(Apache-2.0)。社区维护的量化版本(GGUF,低位)已经开始出现。
我非常希望能收到正在构建代理、使用工具的系统或长时间运行推理管道的人的反馈。
HF 组织: [https://huggingface.co/DeepBrainz](https://huggingface.co/DeepBrainz)
我是Guy,Snyk的创始人,现在正在构建Tessl,一个用于代理技能的包管理器。
我们最近注意到,大多数团队仍然将技能视为静态的工件:Markdown文件,这些文件是从一个代码库创建或复制到另一个代码库的。
这种方法虽然在初期提供了强劲的推动力,但很快就会造成债务:
- 技能被重复创建,更新从未推送。
- 质量较差的技能被忽视,反而误导了代理而不是帮助他们。
- 技能知识变得陈旧,无法跟上所描述的系统和实践。
如果没有评估技能的方法,团队就无法清楚地了解一个技能的实际质量,或者它是否随着时间的推移而退化。
我们相信,评估是确保技能质量的基础。
考虑到这一点,我很高兴地宣布,Tessl注册中心包含超过2000个技能的评审评估,您可以请求对任何公共技能进行评估。
我对此次发布感到非常兴奋——期待您的反馈,并期待更多的增强功能在排队中!
我厌倦了Claude在我进行任务时毫无预警地打断我(使用开放代码时)。于是我开发了一个macOS菜单栏应用,能够准确显示你的使用情况。
- 从钥匙串中读取现有的Claude Code OAuth凭证(零配置)
- 以百分比形式显示5小时和7天的剩余使用量,并用颜色编码的阈值表示
- 显示消耗速率箭头(→ ↗ ⬆),让你知道自己是处于平稳状态还是冲刺状态
- 24小时的火花线图显示你的使用波动模式
- 在你即将达到限制前的20%和5%时发送通知
该应用完全使用Swift编写,无任何依赖,轮询配额API(而非聊天API,因此不会浪费令牌)。
使用以下命令安装:brew install rajish/tap/cc-hdrm
接下来将推出:完整的分析窗口,包含历史图表和详细数据,显示你实际使用的量、每周限制阻止的量,以及你真正未使用的部分。这是基于she-llac在<a href="https://she-llac.com/claude-limits" rel="nofollow">https://she-llac.com/claude-limits</a>进行的巧妙逆向工程。