返回首页
最新
我对那些易于组装但难以审计的控制平面感到越来越沮丧。开源技术栈的便利性与合规性并不兼容——因为每增加一个守护进程和API,就多了一层需要解释、版本管理和防御的表面。
我构建了Cohesix 0.4.0-alpha,将合规性和安全性视为一个系统性问题。它是一个用于边缘GPU节点的控制平面操作系统,运行在seL4虚拟机上,并暴露一个Secure9P命名空间,而不是传统的文件系统或RPC层。
这种做法是故意的。虚拟机用户空间不使用标准库,不支持POSIX,没有传统文件系统,没有虚拟机内的RPC,也没有后台守护进程。接口是一个小而明确的语法:在Secure9P命名空间下的文件形状控制表面。
这并不是为了追求极简主义,而是关于确定性、可审计性、撤销、行为边界,以及让故障模式变得清晰。票据和租约会过期;预算返回ELIMIT而不是神秘的延迟;/proc暴露队列和租约状态。
一个部署是一个蜂巢:一个女王角色协调worker-heart和worker-gpu角色,NineDoor导出路径,如/queen/ctl、/proc、/log和/worker/<id>/telemetry。操作员通过经过身份验证的TCP控制台使用‘cohsh’连接;该控制台是唯一的虚拟机内监听器。
Cohesix并不试图取代Linux、Kubernetes、CUDA或现有的开源软件。重型生态系统仍然驻留在主机上,主机侧工具和边车将它们镜像到/gpu和/host中,因此可以在不重写的情况下进行采用。这是一个控制平面边界,而不是工作负载平面。
在0.4.0-alpha中,我添加了权威调度/租约/导出/策略控制文件,配合/proc可观察性,以及一个REST网关,通过HTTP投影相同的文件语义。今天的开发目标是QEMU aarch64/virt;预期的硬件目标是UEFI ARM64。
如果你想要一个通用操作系统,这不是合适的工具。我故意想要一些无聊的东西,虽然小但却具有欺骗性的强大功能,我愿意牺牲便利性以重新获得控制权。
我正在尝试对我在工业和资产重型运营中反复看到的模式进行压力测试,非常希望能听到有相关经验的人的看法。
在许多环境中(如制造业、设备租赁、油田服务、航空航天、医疗设备),质量和运营的工作往往是在正式系统之外开始的:
- 手写的检查记录
- 手机上的照片
- 现场的语音记录
- 协调修复的电子邮件和电子表格
虽然ERP/QMS系统存在,但在时间压力下,工作往往先在其他地方进行。当审计、客户升级或安全问题出现时,团队不得不急忙从零散的证据中重建实际发生的情况。
我有几个真心好奇的问题:
- 你见过不出现这种情况的环境吗?是什么让它们与众不同?
- 重建痛点最常出现在什么地方——审计、客户争议、资产再认证,还是其他?
- 当工作被过早总结或规范化时,通常会丢失哪些信息?
- 当事情升级时,通常是谁承担“证明”一切正常的责任?
我并不是在推销任何东西,也不想推广某个工具。我只是想了解现实在实践中如何打破抽象。
非常感谢任何第一手的经验或反例。
嗨,HN!我开发了 LayerClaw(https://github.com/layerclaw/layerclaw),这是一个以本地为中心的 PyTorch 训练可观察性工具。
问题:在训练神经网络时,很多问题都是悄无声息地发生的。你的损失在第 47,392 步时爆炸;你的梯度在第 12 层消失;你的 GPU 内存随机飙升。等你注意到这些问题时,可能已经浪费了数小时或数天的计算资源。
我厌倦了添加打印语句、手动检查 TensorBoard 文件以及事后追踪训练问题。现有的工具要么需要云账户(如 W&B、Neptune),要么对于快速实验来说太过笨重(如 MLflow、用于梯度分析的 TensorBoard)。
LayerClaw 的功能:
- 在训练过程中自动跟踪梯度、指标和系统资源
- 所有数据都存储在本地(使用 SQLite + Parquet,无需云服务)
- 检测异常:梯度爆炸、NaN/Inf 值、损失峰值
- 提供命令行界面(CLI)以比较运行结果:`tracer compare run1 run2 --metric loss`
- 异步写入的开销极小(约 2-3%)
快速示例:
```python
import tracer
import torch
# 初始化(只需一行)
tracer.init(project="my-project", track_gradients=True)
# 你的正常训练循环
model = YourModel()
tracer._state.tracer.attach_hooks(model)
for batch in dataloader:
loss = train_step(model, batch)
tracer.log({"loss": loss.item()})
tracer.step()
tracer.finish()
```
然后分析:`tracer anomalies my-run --auto`
与其他工具的不同之处:
1. 本地优先:无需注册,无数据离开你的机器,无供应商锁定
2. 专为调试设计:内置深度梯度跟踪和异常检测(不是事后添加的功能)
3. 轻量级:在你的训练循环中只需添加两行代码,开销极小
4. 兼容所有框架:原生 PyTorch、HuggingFace Transformers、PyTorch Lightning
当前限制(v0.1.0):
- 仅支持 CLI(计划在 v0.2 中推出 Web UI)
- 单机训练(分布式支持即将推出)
- 处于早期阶段,欢迎对最有用的功能提供反馈
现在可用:
- GitHub: https://github.com/layerclaw/layerclaw
*我在寻找贡献者!* 我已经创建了几个“适合新手的问题”,欢迎任何有兴趣贡献的人。需要帮助的领域:
- 可视化的 Web UI
- 分布式训练支持
- 更多框架集成
- 实时监控仪表板
如果你之前在机器学习训练中遇到过问题,我非常希望听到你认为最有价值的意见。欢迎提交 PR,或者如果你觉得这个项目有趣,请给仓库加星!
什么功能会让这个工具成为你工作流程中不可或缺的一部分?
我提交了一个 llama.cpp Notebook 的 PR,以在官方的 llama.cpp webui 中添加一个 Notebook 页面。现在我不再需要 text-generation-webui 来实现 Notebook 功能,并且可以随时使用最新的 llama.cpp 特性,而无需等待 llama.cpp Python 绑定的更新。
嗨,HN!我是Rereflect的创始人。
我在看到团队(包括我自己的团队)在电子邮件、Slack、支持票和调查中分散的客户反馈中苦苦挣扎后,决定开发这个工具。宝贵的见解总是被遗忘。
它的功能包括:
• 自动分析情感
• 分类痛点(如bug、用户体验问题、定价顾虑等)
• 提取功能请求
• 标记流失风险
• 所有功能都可以通过一个仪表板访问
技术栈:FastAPI + PostgreSQL后端,Next.js前端,自定义AI分析引擎。
免费计划:每月250条反馈项。只需上传CSV文件即可开始使用。
我非常希望得到HN社区的反馈:
- 什么能让这个工具更有价值?
- 哪些集成最重要?(Slack、邮件转发、Webhooks?)
- 你们目前是如何处理反馈的?
欢迎随时提问!
试用链接: [https://app.rereflect.ca](https://app.rereflect.ca)