返回首页
最新
我整天在审查PR(拉取请求),基本上已经停止仔细阅读它们了。有人提交一个2000行的PR,我只是滚动查看,发现大部分是AI生成的React组件,留个评论,然后合并。我对此感到不安,直到我意识到我团队中的每个人都在做同样的事情。
问题在于差异(diff)的格式不对。一个PR可能会改变三个按钮的行为。盯着绿色和红色的行来理解这一点简直疯狂。
我们构建这个工具的核心原因是,我们觉得今天的产品是基于过去的假设构建的。100倍的代码和相同的审查系统意味着需要100倍的人类关注。人类的注意力无法扩展到满足这种需求,因此我们构建了不同的东西。人们与视频内容的互动明显比与文本内容更为投入。
因此,我们通过强化学习训练并构建了一个代理,它在你打开PR时观察你的预览部署,点击更改的内容,并在PR中发布一个视频。
最困难的部分是找出更改的代码在运行的应用程序中的实际位置。一个差异可能会说Button.tsx第47行已更改,但这并不能告诉你如何找到那个按钮。我们遍历React的Fiber树,每个节点都映射回源文件,因此我们可以追踪到DOM元素的边界框的更改。然后我们对模型在其中展示和互动给予奖励。
显然,这只适用于React,因此在推广到所有语言时我们需要更加聪明。
我们训练了一个强化学习代理与这些组件互动。简单的奖励机制:将修改的内容进入视口得分,点击或输入得双倍分。它大约30%的行为是奇怪的,比如部分表单提交、中途按下Esc键,因为真实用户会这样做,而礼貌的AI模型不会自己测试这些情况。
这可以捕捉到单元测试完全遗漏的内容:z-index错误,即某些东西渲染了但你无法点击,滚动容器将你困住,处理程序静默失败等。
目前存在的问题包括:功能标志、存储不同用户状态,以及任何需要未提供上下文的内容。
欢迎免费试用: [https://morphllm.com/dashboard/integrations/github](https://morphllm.com/dashboard/integrations/github)
演示视频: [https://www.youtube.com/watch?v=Tc66RMA0nCY](https://www.youtube.com/watch?v=Tc66RMA0nCY)
我们是一家YC W23的公司,专注于为工程实验室构建人工智能代理。我们的客户需要重复进行类似的分析,而代理在每次会话中都像一张白纸一样处理。
我们考察了Mem0、Letta/MemGPT以及其他类似的记忆解决方案。它们解决的是不同的问题:存储对话中的事实——“用户偏好Python”,“用户是素食者”。这是一种带有语义搜索的键值记忆,虽然有用,但并不是我们所需要的。
我们需要的是一种能够从用户行为中隐式学习模式的系统。当客户连续三次将阈值从85%修正为80%时,代理应该能够在下次会话中自动识别这一点。当一个团队总是使用更严格的过滤条件重新运行时,系统也应该能够捕捉到这一模式。
因此,我们围绕一个简单的想法构建了一个内部API:用户的修正是最有价值的数据。我们不是简单地摄取聊天信息并希望大型语言模型(LLM)能提取出有用的信息,而是捕捉结构化事件——代理生成了什么,用户更改了什么,他们接受了什么。后台作业定期运行LLM,以提取模式并为每个用户/团队/组织构建一个带有置信度加权的偏好档案。
在每次会话之前,代理会获取该档案,并随着时间的推移变得更加智能。
我看到的差距是:
Mem0 = 记忆存储 + 检索。无法学习模式。
Letta = 自我编辑代理记忆。更接近,但没有从行为中隐式学习。
缺失的是一个偏好学习层,它观察用户如何与代理互动,并构建一个不断演变的模型。就像一个用于代理个性化的推荐引擎。
我为我们的领域构建了这个系统,但这种方法是领域无关的。我很好奇其他人在他们的代理中是否也遇到了同样的瓶颈。乐意详细分享架构、提示和置信度评分的方法。
最近,我对当前加密货币和黄金的状态感到非常不安。加密货币的波动性与传统“避风港”资产如黄金的不确定性结合在一起,让人很难理解现在真正的稳定性在哪里。感觉每个选择都带来了不同类型的风险。我很好奇其他人如何看待这个时刻——你们是继续投资、减少风险敞口,还是完全转向其他投资?我有点害怕可能会爆发战争。
关于加州预算和一些提议的税收政策,已经进行了很多讨论,因此我请Claude Code对预算进行研究,并将其转化为一个互动仪表板。
通过使用异步子代理,Claude能够同时研究大约十个预算项目,涵盖多个年份,为像我这样对预算了解不多的人提供了大量有用的背景信息和图表。
虽然在前端更改方面仍然存在一些困难,但在研究方面,这大约提高了我20到40倍的工作效率。
如果你有任何想要添加的额外数据或可视化内容,请告诉我!
您对使用MCP服务器与Postgres有什么问题?<p>我们还为PostgreSQL创建了一个开源的MCP服务器(适用于任何新开发的应用程序或现有数据库),名为pgedge-postgres-mcp(https://github.com/pgEdge/pgedge-postgres-mcp)——在这里提出问题和反馈都非常欢迎。<p>今年二月,我们将安排一个网络研讨会,届时项目的工程师将会参与。他会回答在这个讨论串中提出的问题以及在会议结束时问答环节中提出的问题。<p>请关注这里的安排:https://www.pgedge.com/webinars<p>让我们为大家创造一个有趣的交流环境——如果您有任何问题或反馈,请回复或联系community@pgedge.com。
与“没有证据表明没有X”不同。<p>这是一个非常重要的区别。