返回首页
最新
我一直在尝试为物理世界开发一个更主动的人工智能接口。<p>这个项目是为智能眼镜设计的饮品制作助手。它会查看原料,选择食谱,展示步骤,并根据所观察到的情况实时指导我。我最希望实现的功能很简单:在我倒酒时,它应该告诉我何时停止,而不是等我询问。<p>演示视频在自述文件的顶部。<p>我所追求的互动模型就像是身边一个懂得情况并在适当时机介入的助手。我认为这种接口特别有助于防止人们在操作中可能忽视的错误。<p>该系统通过每0.5秒在最新的0.5秒视频片段上持续运行Qwen3.5-27B来工作。我使用了Overshoot(<a href="https://overshoot.ai">https://overshoot.ai</a>)进行快速的实时视频VLM推理。由于它处理的是短片段而不是单帧,因此能够捕捉运动线索和视觉上下文。在我的案例中,推理每个片段大约需要300-500毫秒,这使得反馈在这种互动中感觉足够灵敏。基于VLM返回的事件,应用程序处理其余部分:状态跟踪、进度管理以及语音和LLM处理。<p>我之前尝试过使用微调的RF-DETR目标检测模型进行类似的想法。那种方法在成本上更具优势,并且也可以在设备上运行。但VLM的灵活性更高:我可以通过提示改变行为,而不需要重新训练,并且它们能够处理比单纯的目标检测更广泛的情境理解。然而,在实际应用中,对于小型快速的VLM,提示的措辞非常重要。获得可靠的行为意味着要了解特定模型对哪些类型的提示能够持续响应。<p>我通过制作无酒精鸡尾酒进行了测试,但我认为这种互动模式应该可以推广到更广泛的烹饪场景。我计划尝试更多的例子,看看在哪些方面效果良好,在哪些方面出现问题。<p>有一件事情似乎很难,那就是检查液体的液位,尤其是当液体几乎透明时。到目前为止,我只用VLM尝试过这个,我很好奇还有哪些其他方法可能有效。<p>欢迎提出问题和反馈。
在花费了太多时间通过SSH登录服务器检查我的代理是否在线后,我构建了这个工具。AgentPen为您提供一个统一的仪表盘,用于管理所有的OpenClaw代理:自动发现、实时活动动态、任务看板、每个代理的API费用跟踪、可视化配置编辑器、一键VPS部署。前30名用户免费(剩余26个名额),之后一次性收费49美元。支持macOS Apple Silicon。
我们正在构建一个开源平台,基本上可以让您运行自己的SEO/AEO代理。<p>非常希望能得到一些反馈!
大家好,我刚刚开源了 OpenBrand - 只需一个 URL 就能提取任何品牌的标志、颜色和资产。
它采用 MIT 许可证,完全开源,完全免费。
可以在 openbrand.sh 上试用。
它还提供了一个免费的 API 和 MCP 服务器,供您在代码或代理中使用。
我们之所以开发这个工具,是因为在构建另一个产品时,我们需要将客户的品牌图像作为自定义背景引入。我们觉得这是一个相对简单的问题,但没有现成的开源解决方案,因此我们决定自己开发一个。
嗨,我是Nenad。我创建了Grafly(<a href="https://grafly.io" rel="nofollow">https://grafly.io</a>),因为我总是需要不同的工具来快速绘制架构图,但总是对用户界面、配色方案、使用模式感到不满,或者我必须登录,或者我的涂鸦存储在别人的服务器上。Grafly是一个完全在浏览器中运行的React/React Flow应用,这意味着所有内容都保存在localStorage中,数据不会离开你的设备。你可以使用基本形状、AWS/GCP图标、带有路径点的边缘,以及可共享的URL,这些URL在查询字符串中编码了整个图表(没有后端,只是LZ压缩)。此外,还有一个关于底层数据格式的描述,你可以将其提供给你的AI,以便它可以根据文本提示生成图表。我知道这不是完美的,但对我来说足够用了,也许对你们中的一些人会有帮助。代码在GitHub上,采用AGPL许可证。<a href="https://github.com/lnenad/grafly" rel="nofollow">https://github.com/lnenad/grafly</a>
<a href="https://github.com/jemalloc/jemalloc" rel="nofollow">https://github.com/jemalloc/jemalloc</a>