返回首页
最新
我是一名开发者,已有20多年经验,审核人员的选择在我工作过的每家公司都是一个反复出现的问题。要么你是一个CODEOWNER,收到每个PR的垃圾信息,要么你在Slack上寻找一个真正了解你所修改代码的人。CODEOWNERS太粗糙了——它将路径映射到人,但并没有考虑谁可用、谁之前审核过这个作者,或者谁最近实际接触过这些文件。
为了解决这个问题,我开发了PullMaster。这是一个GitHub应用,分析你仓库的实际历史,并为每个PR推荐最佳审核者。它根据每个变更的风险级别进行调整,因此关键的PR会优先分配给经验丰富的审核者,而常规的PR则会在团队中分配。
安装GitHub应用后,在PR上评论`@pullmaster-ai suggest`即可获取带解释的推荐,或者使用`@pullmaster-ai assign`自动请求审核。无需配置——它在安装后会立即从你的仓库中学习。
这是免费的。我希望在我的日常工作中使用它,但由于我所在的行业受到严格监管且没有SOC 2认证,这使得它无法使用,因此我正在寻找早期用户和反馈。欢迎随时询问有关其工作原理的问题。
<a href="https://www.pullmaster.ai" rel="nofollow">https://www.pullmaster.ai</a>
想听听最近推动使用AI编码工具后,日常工作中发生了哪些变化。<p>你是否注意到开发速度加快了?<p>代码质量或代码审查方面有没有变化?<p>使用这些工具的团队成员完成冲刺任务的速度是否比不使用的成员更快?
我在过去几周一直在构建 ZSE(Z Server Engine)——一个开源的 LLM 推理引擎,专注于两个尚未完全解决的问题:内存效率和快速冷启动。
我试图解决的问题:
运行一个 32B 模型通常需要约 64 GB 的显存。大多数开发者没有那么多显存。即使量化在内存方面有所帮助,使用 bitsandbytes NF4 的冷启动在首次加载时需要 2 分钟以上,而在温启动时需要 45 到 120 秒——这对无服务器和自动扩展的使用场景造成了困扰。
ZSE 的不同之处在于:
在 19.3 GB 的显存中适配 32B(相比 FP16 减少 70%)——可以在单个 A100-40GB 上运行。
在 5.2 GB 的显存中适配 7B(减少 63%)——可以在消费级 GPU 上运行。
原生 .zse 预量化格式,带有内存映射权重:7B 的冷启动时间为 3.9 秒,32B 为 21.4 秒——相比 bitsandbytes 的 45 秒和 120 秒,vLLM 的冷启动时间约为 30 秒。
所有基准测试均在 Modal A100-80GB 上验证(2026年2月)。
它包含:
与 OpenAI 兼容的 API 服务器(可直接替换)。
交互式命令行界面(zse serve, zse chat, zse convert, zse hardware)。
带有实时 GPU 监控的网页仪表板。
连续批处理(3.45 倍吞吐量)。
通过 llama.cpp 支持 GGUF。
CPU 回退——无需 GPU 也能工作。
速率限制、审计日志、API 密钥认证。
安装:
-----
pip install zllm-zse
zse serve Qwen/Qwen2.5-7B-Instruct
为了快速冷启动(一次性转换):
-----
zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse
zse serve qwen-7b.zse # 每次 3.9 秒
冷启动的改进来自于 .zse 格式将预量化权重存储为内存映射的 safetensors——在加载时没有量化步骤,没有权重转换,仅需 mmap + GPU 传输。在 NVMe SSD 上,7B 的冷启动时间可低于 4 秒。在机械硬盘上则会更慢。
所有代码均为真实实现——没有模拟实现。由 Zyora Labs 开发。Apache 2.0 许可。
欢迎就量化方法、.zse 格式设计或内存效率技术提出问题。
我们开发了一个代理,它基本上可以完成富达顾问为您提供的所有服务。现在是测试版发布,仍有很多工作要做,但我非常希望能听到您的反馈。
扫描任何网站并为AI代理生成WebMCP工具定义。开源命令行工具。通过一个脚本标签进行部署,在代理游乐场中进行测试,并进行A/B测试以找出代理的偏好。所有内容请访问agents.keak.com。