161作者: bilsbie2 个月前原帖
<a href="https://xcancel.com/karpathy/status/1993010584175141038" rel="nofollow">https://xcancel.com/karpathy/status/1993010584175141038</a>
7作者: leo_e2 个月前原帖
我们遇到了经典的分布式系统瓶颈,我在寻找一些经验教训或“最不糟糕”的实践。 背景:我们维护一个分布式有状态引擎(类似搜索/分析)。架构是标准的:控制平面(协调器)将数据段分配给工作节点。工作负载涉及对大数据集的重度使用 mmap 和延迟加载。 事件:我们发生了级联故障,协调器陷入循环,导致对特定节点的 DDOS 攻击。 信号:协调器发现节点 A 的行数(逻辑计数)显著低于集群平均水平,标记节点 A 为“未充分利用”。 行动:协调器尝试重新平衡/将新数据段加载到节点 A 上。 现实:节点 A 实际上使用了 197GB 的内存(接近 OOM)。其上的数据非常宽(宽行,大块数据),因此逻辑行数较低,但物理占用却非常大。 循环:节点 A 拒绝加载(或超时)。协调器忽略了背压,再次看到低行数,立即重试。 核心问题:我们试图为负载均衡器编写一个“上帝方程”。我们从行数开始,但失败了。我们查看了磁盘使用情况,但由于延迟加载,这与内存并没有直接关联。 现在我们在关注 mmap。由于操作系统管理页面缓存,应用层的 RSS 噪声很大,并不能严格反映“所需”内存与“可回收”缓存的关系。 问题:试图将每个资源变量(CPU、IOPS、RSS、磁盘、逻辑计数)枚举到一个单一的评分函数中,感觉像是一个 NP 难题的陷阱。 在内存使用不透明/动态的系统中,您如何处理资源分配? 愚蠢的协调器,聪明的节点:我们是否应该让协调器根据磁盘空间盲目操作,100% 依赖节点根据本地压力返回硬性 429 请求过多? 成本估算:我们是否尝试为每个数据段构建一个合成的“成本模型”(例如,预测的内存占用),并基于信用进行调度,而忽略实际的操作系统指标? 控制平面解耦:将存储平衡(磁盘)与查询平衡(内存)分开? 感觉我们在重新发明轮子。感谢提供相关论文或类似架构的事后分析。
1作者: robot_jackie2 个月前原帖
Corvus Robotics 正在扩展有史以来最大的自主物流数据采集车队。如果你对含铅焊料、实际收入、电子表格或模糊不清的事物过敏——这个职位不适合你。更多“纸箱”,少一些“海鸥箱”。 我们的飞行仓库无人机车队将在2026年增长五倍,我正在寻找一位在旧金山湾区的通才前创始人或制造领导者,他们希望在美国和海外大规模扩展制造运营。 我们需要一个有硬件产品经验(不仅限于SaaS)、沟通清晰且具有无穷创造力的人。流利的普通话和在 EVT/DVT/PVT 阶段领导产品的经验将是额外的加分项。 如果你对此感兴趣,请私信我,或发送一封简短的电子邮件至 a@我们的网址,内容包括: - 你为什么感兴趣 - 你曾经从中恢复的最大制造失误是什么 - 你的目标薪资 PS - 请分享我们的LinkedIn帖子! [https://www.linkedin.com/posts/mhkabirr_at-corvus-robotics-were-scaling-the-largest-activity-7397916377002500096-WiLm](https://www.linkedin.com/posts/mhkabirr_at-corvus-robotics-were-scaling-the-largest-activity-7397916377002500096-WiLm) 谢谢, Jackie
2作者: sanaf2 个月前原帖
嗨,HN, 我开发了GhostBin,这是一个轻量级的粘贴板,旨在替代像ix.io曾经提供的简单性和速度。ix.io已经停机很长时间,而大多数现有的粘贴板要么臃肿、速度慢,要么不适合命令行使用。我需要一个“只需工作”的简约工具,特别是在调试或撰写内容时用于管道传输日志和命令输出。因此,我自己做了一个。 GhostBin的重点是: - 简单性:干净的界面和直观的API。 - 性能:使用Go和Redis实现快速读写。 - 以CLI为先的工作流程:curl和shell管道开箱即用。 - 隐私与控制:可通过Docker自托管;无供应商锁定。 - 阅读后销毁 + 过期:适用于临时片段。 - 可选的删除密钥:允许通过API安全删除。 演示:https://www.youtube.com/shorts/RINJI_Q5048 源代码:https://github.com/0x30c4/GhostBin CLI脚本:https://raw.githubusercontent.com/0x30c4/GhostBin/main/gbin.sh ``` $ curl -F "f=@file.txt" gbin.me ``` ``` dmesg | curl -F "f=@-" gbin.me ```
1作者: pharshal2 个月前原帖
ProDisco 为 AI 代理提供了 Kubernetes 访问权限,紧密遵循 Anthropic 的渐进式披露模式 [1]:MCP 服务器暴露了搜索工具,这些工具又展示了 TypeScript 模块,代理通过发现这些模块来编写代码,最终只有控制台输出返回给代理。 ProDisco 更进一步:它并不暴露自定义的 TypeScript 模块,而是提供了一个结构化的参数搜索工具,该工具返回来自官方 Kubernetes 客户端库的最合适的方法,包括其输入和返回值的类型定义。这使得代理能够动态地与上游 Kubernetes 库进行交互,同时避免在此代码库中维护与这些 API 对应的包装或镜像的负担。 <a href="https:&#x2F;&#x2F;github.com&#x2F;harche&#x2F;ProDisco" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;harche&#x2F;ProDisco</a> [1] <a href="https:&#x2F;&#x2F;www.anthropic.com&#x2F;engineering&#x2F;code-execution-with-mcp" rel="nofollow">https:&#x2F;&#x2F;www.anthropic.com&#x2F;engineering&#x2F;code-execution-with-mc...</a>
1作者: azdle2 个月前原帖
这是我在过去几个月里一直在进行的一个小项目。它是一个托管Lua脚本的服务,背后有静态HTTP端点。这是我为了满足自己的需求而构建的,现在我正在推出一个免费的公共测试版,看看是否还有其他人也觉得它有用。 <backstory> 我第一份专业工作是在一家构建工业物联网平台的公司,最独特的功能是他们的基于Lua的脚本平台。我对Lua的热爱让我在下一份工作中(在SmartThings)成为了推动Lua基础Edge Drivers实现的主要推动者,当时我们被迫停止使用旧的基于Groovy的设备类型(DTH),我负责编写初始的概念验证,设计架构,并编写系统的核心部分。 这基本上是我对一个在2017年关闭的旧服务webscript.io的看法,正是这个工具让我爱上了Lua。我在个人项目和工作中的小工具中都大量使用了这个服务。当它关闭时我感到非常难过,真的觉得没有一个星期我不希望它还能存在。因此,我最终决定需要构建自己的版本。 </backstory> Bodge的整个理念是尽可能简单地将一些东西拼凑在一起。我一直有很多小的副项目想做,但它们的维护成本不值得。因此,我构建了Bodge,以便在灵感来临时,让每个单独的项目变得更轻松。到目前为止,我已经构建了: * 一个用于一些拼凑在一起的物联网设备的当前时间API: [https://time.bodge.app/](https://time.bodge.app/) * 一个为我妻子编写的脚本,检查她的通勤时间,并在情况变糟之前给她发邮件。 * 如果我的Matrix服务器宕机,给我发送邮件通知。 * 一个“随机选择一个东西”的页面。 [https://rand.bodge.app/choose?head&tails](https://rand.bodge.app/choose?head&tails) * 一个“工作”电话号码的语音信箱,脚本将Webhook转换为对我的提醒。 * 每当一些半公开的自托管服务发布新版本时,给我发送邮件通知。 * 一些公司的职位列表抓取器,通知我每当有新职位发布且符合某些筛选条件时。 * 一个WebPush服务器,我最终希望用来发送自定义通知。 * 一个SVG访问计数器, [https://hits.bodge.link/](https://hits.bodge.link/),纯粹是为了好玩。 脚本可以简单到如下所示: ```lua return "Hello, world!" ``` 也可以复杂到你愿意在单个Lua文件的限制内做到的程度。 目前我提供的Lua模块包括:发起HTTP请求、处理JSON、发送提醒、简单的字符串/字符串键/值存储、跨脚本互斥锁,以及其他一些基本功能。 账户是免费的,但你甚至不需要注册一个账户就可以随意玩弄编写脚本。主页上有一个演示,可以让你运行真实的脚本,但有一些额外的限制。 我很想听听大家的想法!
2作者: philipisik2 个月前原帖
我们最近发布了 Tiptap AI 工具包(<a href="https://tiptap.dev/docs/content-ai/capabilities/ai-toolkit/overview">https://tiptap.dev/docs/content-ai/capabilities/ai-toolkit/overview</a>),该工具包允许开发者将基于大型语言模型(LLM)的编辑功能嵌入到富文本编辑器中。 现在,我们正在探索下一步:让智能体在没有浏览器参与的情况下操作文档。 这个想法是建立一个服务器端系统,让智能体能够实时读取、写入和转换文档——本质上将文档层视为一个可编程的数据存储,智能体可以直接与之交互。我们内部开玩笑称之为“实时智能文档数据库”,因为它正朝着这个方向发展。 我很想知道其他人对这个方向的看法。 如果你有一个数据库,其基本单元不是行/对象,而是具有语义结构的文档,智能体可以对其进行修改,那么它还可以或应该做些什么? 有哪些明显的风险? 你希望在智能体的自主性和文档的完整性之间设定哪些边界? 我很想听听你们如何扩展或限制这样的系统。