返回首页
最新
嗨,HN,我之所以构建这个,是想看看是否可以在独立研究人员可获取的硬件上对大词汇量的语言模型(如具有262k个标记的Gemma)进行预训练。
在这个规模下,标准的精确交叉熵在16GB的GPU上会立即出现内存溢出(OOM)。
为了绕过这个问题,我实现了MAXIS损失。它使用“幽灵逻辑”(Ghost Logit)来数学上模拟未采样标记的缺失概率质量,而不是实际生成完整的262k宽矩阵。
在一块16GB显存的显卡(T4)上的基准测试结果如下:
在损失层中,比经过Triton优化的Liger内核快17.5倍。
在目标计算中,显存减少了约39%。
还包括RandNLA注意力机制,它使用因果克罗内克草图(Causal Kronecker Sketching)来保持内存平坦,随着序列长度的增长。
我在代码库中包含了技术报告和正式的数学推导。我非常希望能收到关于分区函数模拟或草图方法的任何技术反馈。
UI 测试容易脆弱,因为它们依赖于脆弱的定位器(如 XPath/ID)。测试在本地通过,但当 CI 中的 UI ID 发生变化时就会失败,这导致了持续的维护和开发时间的浪费。
Finalrun 用人类可读的规范替代了定位器。您可以编写简单的英文指令(例如,“点击设置,搜索‘西班牙语’,验证‘Español’”),然后一个基于视觉的 QA 代理像人类一样驱动应用程序——因此重命名的 ID 不会导致测试失败。
使用简单英文代理进行移动应用测试时,规范驱动的方法运作顺利,几乎不需要维护:
1. 代理可以分析您的代码库,
2. 自动生成边缘案例规范(包括设置/清理),并将其导出为 .md 测试文件,
3. 现在您可以通过 CLI 运行测试(例如:./mobile-cli run ./test/search.md)。
如果您希望提前访问或在代码开源时获取代码,我正在收集电子邮件:
<a href="https://docs.google.com/forms/d/1EwHjqK6t1pBQgsKWih1Z_hQqP837elhl7hVbUGLHqV0" rel="nofollow">https://docs.google.com/forms/d/1EwHjqK6t1pBQgsKWih1Z_hQqP83...</a>
(此外,演示视频:<a href="https://youtu.be/SsVHRDWk_ss" rel="nofollow">https://youtu.be/SsVHRDWk_ss</a>)
我一直在尝试为物理世界开发一个更主动的人工智能接口。<p>这个项目是为智能眼镜设计的饮品制作助手。它会查看原料,选择食谱,展示步骤,并根据所观察到的情况实时指导我。我最希望实现的功能很简单:在我倒酒时,它应该告诉我何时停止,而不是等我询问。<p>演示视频在自述文件的顶部。<p>我所追求的互动模型就像是身边一个懂得情况并在适当时机介入的助手。我认为这种接口特别有助于防止人们在操作中可能忽视的错误。<p>该系统通过每0.5秒在最新的0.5秒视频片段上持续运行Qwen3.5-27B来工作。我使用了Overshoot(<a href="https://overshoot.ai">https://overshoot.ai</a>)进行快速的实时视频VLM推理。由于它处理的是短片段而不是单帧,因此能够捕捉运动线索和视觉上下文。在我的案例中,推理每个片段大约需要300-500毫秒,这使得反馈在这种互动中感觉足够灵敏。基于VLM返回的事件,应用程序处理其余部分:状态跟踪、进度管理以及语音和LLM处理。<p>我之前尝试过使用微调的RF-DETR目标检测模型进行类似的想法。那种方法在成本上更具优势,并且也可以在设备上运行。但VLM的灵活性更高:我可以通过提示改变行为,而不需要重新训练,并且它们能够处理比单纯的目标检测更广泛的情境理解。然而,在实际应用中,对于小型快速的VLM,提示的措辞非常重要。获得可靠的行为意味着要了解特定模型对哪些类型的提示能够持续响应。<p>我通过制作无酒精鸡尾酒进行了测试,但我认为这种互动模式应该可以推广到更广泛的烹饪场景。我计划尝试更多的例子,看看在哪些方面效果良好,在哪些方面出现问题。<p>有一件事情似乎很难,那就是检查液体的液位,尤其是当液体几乎透明时。到目前为止,我只用VLM尝试过这个,我很好奇还有哪些其他方法可能有效。<p>欢迎提出问题和反馈。
在花费了太多时间通过SSH登录服务器检查我的代理是否在线后,我构建了这个工具。AgentPen为您提供一个统一的仪表盘,用于管理所有的OpenClaw代理:自动发现、实时活动动态、任务看板、每个代理的API费用跟踪、可视化配置编辑器、一键VPS部署。前30名用户免费(剩余26个名额),之后一次性收费49美元。支持macOS Apple Silicon。
我们正在构建一个开源平台,基本上可以让您运行自己的SEO/AEO代理。<p>非常希望能得到一些反馈!