4作者: MrTravisB3 天前原帖
嗨,HN, 我和我的团队正在构建 Tabstack,旨在处理 AI 代理的网络层。今天,我们分享了 Tabstack Research,这是一个用于多步骤网络发现和综合的 API。 在许多代理系统中,从单一页面提取结构化数据与回答需要跨多个来源阅读的问题之间存在明显的区别。第一种情况目前得到了相对较好的支持,而第二种情况通常不然。 大多数团队通过结合搜索、抓取和总结来处理研究。这在规模扩大时变得脆弱且成本高昂。你最终需要管理浏览器编排,移动大量原始文本仅仅是为了提取几个主张,并编写自定义逻辑来检查问题是否真正得到了回答。 我们构建了 Tabstack Research,将这一推理循环移入基础设施层。你只需发送一个目标,系统会: - 将其分解为针对不同数据孤岛的子问题。 - 根据需要使用抓取或浏览器自动化进行网络导航。 - 在综合之前提取并验证主张,以保持上下文窗口专注于信号。 - 检查与原始意图的覆盖情况,并在检测到信息缺口时进行调整。 例如,如果搜索企业政策发现数据分散在多个子服务中(如 Teams 数据存储在 SharePoint 中),引擎会检测到这一缺口并自动调整以寻找缺失的文档。 我们的目标是返回应用程序可以直接依赖的内容:一个带有内联引用和直接链接到源文本的结构化对象,而不是一系列链接或一个黑箱摘要。 上面链接的博客文章详细介绍了引擎架构和扩展代理浏览的技术挑战。 我们提供一个免费层,每月包含 50,000 个积分,您可以在没有信用卡的情况下进行测试: [https://console.tabstack.ai/signup](https://console.tabstack.ai/signup) 我非常希望能听到您对这种方法的反馈,并回答您关于该技术栈的任何问题。
1作者: simplydt3 天前原帖
在过去六个月里,我使用Vibecoded开发了几款iOS应用和一个完整的SaaS(SEOZilla.ai),老实说,我三到四个月前的最佳编码代理会话会是很好的提交。出色的调试,识别糟糕的架构选择,反复的解决问题。 但最近呢?我主要在撰写产品规格,做一些简单的架构决策,以及进行质量保证。代理们就……处理这些事情。无论是Opus、Sonnet、Cursor,还是你正在使用的其他工具,过去两个月的进步真是惊人。 这引出了一个真实的问题:YC到底在这个提示中选择什么?最令人印象深刻的会话可能来自使用更差工具或解决更难问题的人。那些找到了最佳工作流程的创始人,可能会有最无聊的记录。 还有其他人发现他们的“最佳”代理会话现在反而是最无趣的吗?
4作者: dsrtslnd233 天前原帖
嗨,HN, 我有一台3D打印机,但我在CAD方面的能力很差。使用大型语言模型(LLMs)进行编码对我来说非常有效,因此我一直在尝试将类似的工作流程应用于CAD/建模。 对于简单的功能性部件(夹具、支架、适配器、小型夹具),我可以使用LLM和OpenSCAD进行循环:它编写OpenSCAD代码,我进行编译/渲染,渲染几个视图,LLM“查看”这些图像,然后我们迭代直到看起来合适。这已经很有帮助,但很快就遇到了瓶颈。任何超出简单参数化原始体的内容都变得很痛苦(复杂几何形状、精确接口、装配、公差/配合等)。 我对两件事很感兴趣。首先:你认为我们什么时候能够生成与专业水平相当的模型,类似于LLMs目前在编码方面所能做到的?其次:这种工作流程在实践中会是什么样子?它会主要保持参数化(OpenSCAD/约束),还是会更像是在SolidWorks/Fusion等工具中具有交互式“CAD副驾驶”的功能,可以通过截图+点击的方式编辑特征树?或者完全不同,比如文本转化为具有约束和检查的完整特征历史。 如果你已经在做这个,今天哪些工具/工作流程能取得最佳效果,它们又在哪些方面存在不足? 谢谢!
1作者: maciejgryka3 天前原帖
我们使用了我们的蒸馏平台和一个Kaggle数据集,制作了一个小型(270M Gemma基础)模型,用于将文本分类为“AI垃圾”或“非AI垃圾”。这款模型不仅有趣,构建过程也很有趣。 令人恼火的是,正式的人类撰写文本(例如我在2015年写的一篇机器学习论文)往往会被错误分类(试试这段话:“如果用户的编辑未能考虑阴影,操控的图像会失去可信度。我们提出了一种方法,使得软阴影的去除和编辑变得简单。软阴影无处不在,但提取和处理它们仍然 notoriously困难。我们假设可以通过学习图像补丁的映射函数来对软阴影进行分割和编辑,从而生成阴影遮罩。我们通过仅需少量用户输入就能从照片中去除软阴影来验证这一假设。”)。