1作者: justinko大约 1 个月前原帖
我是一名开发者,已有20多年经验,审核人员的选择在我工作过的每家公司都是一个反复出现的问题。要么你是一个CODEOWNER,收到每个PR的垃圾信息,要么你在Slack上寻找一个真正了解你所修改代码的人。CODEOWNERS太粗糙了——它将路径映射到人,但并没有考虑谁可用、谁之前审核过这个作者,或者谁最近实际接触过这些文件。 为了解决这个问题,我开发了PullMaster。这是一个GitHub应用,分析你仓库的实际历史,并为每个PR推荐最佳审核者。它根据每个变更的风险级别进行调整,因此关键的PR会优先分配给经验丰富的审核者,而常规的PR则会在团队中分配。 安装GitHub应用后,在PR上评论`@pullmaster-ai suggest`即可获取带解释的推荐,或者使用`@pullmaster-ai assign`自动请求审核。无需配置——它在安装后会立即从你的仓库中学习。 这是免费的。我希望在我的日常工作中使用它,但由于我所在的行业受到严格监管且没有SOC 2认证,这使得它无法使用,因此我正在寻找早期用户和反馈。欢迎随时询问有关其工作原理的问题。 <a href="https://www.pullmaster.ai" rel="nofollow">https://www.pullmaster.ai</a>
2作者: zyoralabs大约 1 个月前原帖
我在过去几周一直在构建 ZSE(Z Server Engine)——一个开源的 LLM 推理引擎,专注于两个尚未完全解决的问题:内存效率和快速冷启动。 我试图解决的问题: 运行一个 32B 模型通常需要约 64 GB 的显存。大多数开发者没有那么多显存。即使量化在内存方面有所帮助,使用 bitsandbytes NF4 的冷启动在首次加载时需要 2 分钟以上,而在温启动时需要 45 到 120 秒——这对无服务器和自动扩展的使用场景造成了困扰。 ZSE 的不同之处在于: 在 19.3 GB 的显存中适配 32B(相比 FP16 减少 70%)——可以在单个 A100-40GB 上运行。 在 5.2 GB 的显存中适配 7B(减少 63%)——可以在消费级 GPU 上运行。 原生 .zse 预量化格式,带有内存映射权重:7B 的冷启动时间为 3.9 秒,32B 为 21.4 秒——相比 bitsandbytes 的 45 秒和 120 秒,vLLM 的冷启动时间约为 30 秒。 所有基准测试均在 Modal A100-80GB 上验证(2026年2月)。 它包含: 与 OpenAI 兼容的 API 服务器(可直接替换)。 交互式命令行界面(zse serve, zse chat, zse convert, zse hardware)。 带有实时 GPU 监控的网页仪表板。 连续批处理(3.45 倍吞吐量)。 通过 llama.cpp 支持 GGUF。 CPU 回退——无需 GPU 也能工作。 速率限制、审计日志、API 密钥认证。 安装: ----- pip install zllm-zse zse serve Qwen/Qwen2.5-7B-Instruct 为了快速冷启动(一次性转换): ----- zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse zse serve qwen-7b.zse # 每次 3.9 秒 冷启动的改进来自于 .zse 格式将预量化权重存储为内存映射的 safetensors——在加载时没有量化步骤,没有权重转换,仅需 mmap + GPU 传输。在 NVMe SSD 上,7B 的冷启动时间可低于 4 秒。在机械硬盘上则会更慢。 所有代码均为真实实现——没有模拟实现。由 Zyora Labs 开发。Apache 2.0 许可。 欢迎就量化方法、.zse 格式设计或内存效率技术提出问题。