返回首页
一周热榜
我们是一家YC W23的公司,专注于为工程实验室构建人工智能代理。我们的客户需要重复进行类似的分析,而代理在每次会话中都像一张白纸一样处理。
我们考察了Mem0、Letta/MemGPT以及其他类似的记忆解决方案。它们解决的是不同的问题:存储对话中的事实——“用户偏好Python”,“用户是素食者”。这是一种带有语义搜索的键值记忆,虽然有用,但并不是我们所需要的。
我们需要的是一种能够从用户行为中隐式学习模式的系统。当客户连续三次将阈值从85%修正为80%时,代理应该能够在下次会话中自动识别这一点。当一个团队总是使用更严格的过滤条件重新运行时,系统也应该能够捕捉到这一模式。
因此,我们围绕一个简单的想法构建了一个内部API:用户的修正是最有价值的数据。我们不是简单地摄取聊天信息并希望大型语言模型(LLM)能提取出有用的信息,而是捕捉结构化事件——代理生成了什么,用户更改了什么,他们接受了什么。后台作业定期运行LLM,以提取模式并为每个用户/团队/组织构建一个带有置信度加权的偏好档案。
在每次会话之前,代理会获取该档案,并随着时间的推移变得更加智能。
我看到的差距是:
Mem0 = 记忆存储 + 检索。无法学习模式。
Letta = 自我编辑代理记忆。更接近,但没有从行为中隐式学习。
缺失的是一个偏好学习层,它观察用户如何与代理互动,并构建一个不断演变的模型。就像一个用于代理个性化的推荐引擎。
我为我们的领域构建了这个系统,但这种方法是领域无关的。我很好奇其他人在他们的代理中是否也遇到了同样的瓶颈。乐意详细分享架构、提示和置信度评分的方法。
使用Anthropic API运行OpenClaw,结果一天内消耗了大约50美元。<p>其他OpenClaw用户的情况如何?有没有人找到有效的降低成本的方法(例如模型分层、缓存等)?
嗨,HN,
我和我的团队正在构建 Tabstack,旨在处理 AI 代理的网络层。今天,我们分享了 Tabstack Research,这是一个用于多步骤网络发现和综合的 API。
在许多代理系统中,从单一页面提取结构化数据与回答需要跨多个来源阅读的问题之间存在明显的区别。第一种情况目前得到了相对较好的支持,而第二种情况通常不然。
大多数团队通过结合搜索、抓取和总结来处理研究。这在规模扩大时变得脆弱且成本高昂。你最终需要管理浏览器编排,移动大量原始文本仅仅是为了提取几个主张,并编写自定义逻辑来检查问题是否真正得到了回答。
我们构建了 Tabstack Research,将这一推理循环移入基础设施层。你只需发送一个目标,系统会:
- 将其分解为针对不同数据孤岛的子问题。
- 根据需要使用抓取或浏览器自动化进行网络导航。
- 在综合之前提取并验证主张,以保持上下文窗口专注于信号。
- 检查与原始意图的覆盖情况,并在检测到信息缺口时进行调整。
例如,如果搜索企业政策发现数据分散在多个子服务中(如 Teams 数据存储在 SharePoint 中),引擎会检测到这一缺口并自动调整以寻找缺失的文档。
我们的目标是返回应用程序可以直接依赖的内容:一个带有内联引用和直接链接到源文本的结构化对象,而不是一系列链接或一个黑箱摘要。
上面链接的博客文章详细介绍了引擎架构和扩展代理浏览的技术挑战。
我们提供一个免费层,每月包含 50,000 个积分,您可以在没有信用卡的情况下进行测试: [https://console.tabstack.ai/signup](https://console.tabstack.ai/signup)
我非常希望能听到您对这种方法的反馈,并回答您关于该技术栈的任何问题。
大家好,
我正在建立一个名为Persona的平台,旨在将电子邮件调度委托给人工智能。最近,我一直在努力吸引第一批用户,但这确实很具挑战性。
我已经尝试了大家常说的典型策略:冷邮件、LinkedIn InMail、精准定位、写出不错的文案。但结果大多是死胡同,打开率很低,几乎没有回复。
在这个阶段,我并不想听到那些在博客或reddit上常见的建议。我特别想知道那些非常规或不明显的做法,哪些在早期确实对你们有效,尤其是那些当时看起来有点粗糙、奇怪或反直觉的做法。
如果你经历过这个阶段,什么方法真正有效并帮助你获得了第一批用户呢?
嗨,HN,
我有一台3D打印机,但我在CAD方面的能力很差。使用大型语言模型(LLMs)进行编码对我来说非常有效,因此我一直在尝试将类似的工作流程应用于CAD/建模。
对于简单的功能性部件(夹具、支架、适配器、小型夹具),我可以使用LLM和OpenSCAD进行循环:它编写OpenSCAD代码,我进行编译/渲染,渲染几个视图,LLM“查看”这些图像,然后我们迭代直到看起来合适。这已经很有帮助,但很快就遇到了瓶颈。任何超出简单参数化原始体的内容都变得很痛苦(复杂几何形状、精确接口、装配、公差/配合等)。
我对两件事很感兴趣。首先:你认为我们什么时候能够生成与专业水平相当的模型,类似于LLMs目前在编码方面所能做到的?其次:这种工作流程在实践中会是什么样子?它会主要保持参数化(OpenSCAD/约束),还是会更像是在SolidWorks/Fusion等工具中具有交互式“CAD副驾驶”的功能,可以通过截图+点击的方式编辑特征树?或者完全不同,比如文本转化为具有约束和检查的完整特征历史。
如果你已经在做这个,今天哪些工具/工作流程能取得最佳效果,它们又在哪些方面存在不足?
谢谢!
我很好奇您在配置良好的 M3 Ultra 或 M4 Pro Mac Studio 上运行本地大型语言模型(LLM)的经验。我注意到关于 Mac Studio 用于本地 LLM 的讨论不多,但似乎您可以利用共享的显存将大型模型加载到内存中。我猜测生成令牌的速度可能较慢,但由于可以加载更大的模型到内存中,您可能会获得更高质量的结果。
嘿,HN!我开发了一个命令行工具,用于寻找 AWS、Azure 和 GCP 中的节省成本机会。
<p>为什么要做这个?
现有的成本管理工具要么是昂贵的 SaaS 产品,要么是埋藏在云控制台中的缓慢仪表板。我想要一个快速、以命令行为主、支持多云的工具,可以在 CI/CD 或我的终端中运行。
<p>它的功能:
- 扫描你的云账户,找到闲置的虚拟机、未附加的存储卷、过度配置的数据库和未使用的资源
- 返回一个按估计月节省金额排名的机会列表
- 支持 AWS、Azure 和 GCP 的 26 个分析器
- 只读(从不修改基础设施)
<p>主要特点:
• 带有交互式图表的 HTML 报告(v0.6.2 新增功能)
• AI 驱动的解释(OpenAI 或本地 Ollama)
• 导出格式:HTML、Excel、CSV、JSON、终端
• 多云支持 - AWS、Azure 和 GCP(26 个分析器)
<p>快速示例:
npm install -g cloud-cost-cli
cloud-cost-cli scan --provider aws --output html
<p>实际影响:
一次扫描发现每年可节省 11,000 美元(空的应用服务计划、过度配置的 CosmosDB、闲置的缓存)。
<p>技术栈:
- TypeScript
- AWS/Azure/GCP SDK
- Commander.js 用于命令行界面
- Chart.js 用于 HTML 报告
- 可选的 OpenAI/Ollama 集成
<p>开源(MIT):<a href="https://github.com/vuhp/cloud-cost-cli" rel="nofollow">https://github.com/vuhp/cloud-cost-cli</a>
npm: cloud-cost-cli
<p>希望得到反馈:
1. 哪些功能最有用?
2. 是否应该添加历史跟踪(趋势)?
3. 是否缺少任何云服务提供商?
<p>很高兴回答问题!
我认为代理应该像真正的团队一样运作,具备独立且明确的角色、异步沟通的能力,以及在不重组整个组织的情况下能够引入新队友或工具。我曾在雅虎和抖音构建后端系统,因此事件驱动的代理对我来说显而易见。但当时没有代理SDK采用这种模式,所以我创建了Calfkit。
Calfkit将代理分解为独立的服务(如LLM推理、工具和路由),通过Kafka进行异步通信。代理、工具服务和下游消费者可以独立部署、添加、移除和扩展。
如果你对此感兴趣,可以看看!我很想知道你们的看法。
嗨,HN。
我们刚刚发布了 ThorVG 1.0,这标志着该引擎的成熟里程碑。早期版本专注于功能增长;而此次发布则强调稳定性、后端一致性以及跨平台(包括网页)的渲染行为一致性。
ThorVG 是一个开源的、可嵌入的 C++ 2D 矢量图形引擎,适用于 SVG 风格的图形和 Lottie 动画。
【1.0 版本的意义】
这一版本更关注引擎的准备情况,而非新功能的增加:
- 改进了渲染性能和引擎优化
- 提高了混合精度和文本布局行为
- 现已正式支持 WebGL 后端
- WebGPU 后端已提升至生产就绪状态
- 为浏览器环境引入了轻量级的 WebCanvas 路径
- 更广泛地覆盖了 Lottie 规范,以支持更复杂的动画
- 新增了交互支持,包括边界框查询和命中检测
- 提供了更可预测的 API 行为,以便于集成
ThorVG 旨在作为一个小型渲染层,适用于引擎、用户界面系统、嵌入式设备和对大小及确定性性能有要求的工具。
发布说明: [https://www.thorvg.org/post/thorvg-v1-0-a-new-generation-released](https://www.thorvg.org/post/thorvg-v1-0-a-new-generation-released)
欢迎提出技术问题。
我很好奇其他人是如何处理这个问题的:我在某些任务中使用Claude,编程时用Cursor,研究时用ChatGPT,快速查找时用Perplexity。<p>问题是它们之间并不知道我与其他工具讨论过的内容。<p>我发现自己不得不反复重新解释相同的背景,或者从Notion文档中复制粘贴。<p>对于那些大量使用AI工具的朋友们:<p>- 你们是如何管理不同工具之间的共享上下文的?<p>- 你们目前的工作流程是怎样的,以保持AI的“记忆”一致?<p>- 你们找到过什么有效的解决方案吗?<p>特别希望听到那些需要多个人在不同AI会话中访问相同知识库的团队的经验。
嗨,HN,我是Shubham,一名3D艺术家,在大学时学习了编程,作为IT专业毕业生,我了解一些逻辑,但并不是专家,只是想尝试一下人工智能。
我构建了“弹性工作流哨兵”,这是一个离线AI代理,可以根据紧急程度(低、中、高)对任务进行分类,并根据候选人的可用性进行分配。我希望有一个离线系统,让人们可以信任其敏感数据,确保数据完全保留在本地。
我确实使用AI来加速编码和减少人工成本。这个系统运行在RTX 3080的设备上(这是一个基本的、经济实惠的设置,而不是重型AI机器),我希望在不进行重大升级的情况下使其变得可靠。
这个完整的系统不需要Ollama(我并不反对它)。我注意到在公司中,工单通常是在Jira和Slack上提出的。目前,员工或经理(自我管理)必须手动逐一阅读这些工单,或者将它们发送到云端。但问题在于,很多敏感数据无法发送,因为他们不信任云端,这使得手动筛选成千上万的工单变得非常困难。
想象一下,如果你能将所有任务按紧急程度和分配进行分类,你可以有选择性地查看哪些任务是紧急的,需要立即处理,并且所有信息都不会离开你的办公大楼,完全安全。
此外,API发送并不是唯一的问题,你为每个任务支付的代币费用可能每月在100到1000美元之间,这对于初创公司或其他企业来说,可以节省很多麻烦。
在开始时,我尝试了诸如“思维链”、“RISE(先评估负面)”等提示,提供负面和正面示例,但在常识问题上遇到了一些困难(后来我改变了方法)。虽然提示确实给出了输出,并且效果不错,但处理单个任务的时间过长,大约需要70到90秒。
然后我尝试了批处理,但偏差变得更严重,模型总是偏向某些特定的提示,忽略了更多的提示。对于JSON输出,我使用了约束,使模型只能生成JSON,如果失败,还有一个解析器在我实施提示时使用。
这将每个任务的处理时间从90秒减少到大约15到30秒。我使用了引导向量来纠正注意力问题。
技术栈:
- 语言:Python 3.10
- 模型:qwen2.5-7b-instruct
- 库:Pytorch,Hugging Face Transformers(不使用Langchain,不使用Ollama)
- API:Fast API
- 用户界面:NiceGUI
- 硬件:Ryzen 5,16GB RAM,RTX 3080
实施细节:
- 量化:以nf4量化加载模型,使得像7b这样的模型可以适配10GB的显存,这在RTX 3080上也是我的硬件。
- 引导向量:标准提示不足以满足需求。我需要在大型语言模型的某一层阻止或引导某些内容,以提高可靠性。
- JSON约束:使用约束使模型严格输出JSON,并防止过度解释,这发生在logits层面,阻止不必要的token等。
GitHub链接:[https://github.com/resilientworkflowsentinel/resilient-workflow-sentinel](https://github.com/resilientworkflowsentinel/resilient-workflow-sentinel)
YouTube链接:[https://youtu.be/tky3eURLzWo](https://youtu.be/tky3eURLzWo)