返回首页
最新
六个月前,我分享了DiffMem,这是一个使用git而非向量数据库来实现AI记忆的概念验证(PoC)。有790位朋友为它点赞,并对我正在构建的内容提出了一些问题。
我构建了一个名为Annabelle的记忆助手。她在WhatsApp和Messenger上运行,已经使用你们点赞的基于git的记忆系统,记住了三个人的生活长达六个月。这不是一个代理框架,也不是在OpenClawd上运行,而是基于一个特定想法构建的具体产品:AI中的难题不是智能,而是连续性。
以下是从概念验证到生产环境之间的变化:
*多租户通过git工作树*
概念验证是单用户的。生产环境为每个用户使用孤立分支,每个分支作为工作树挂载。记忆以结构化的markdown格式存储在memories/{people, contexts, events}/下。每次对话都是一个提交。
*四种检索深度*
上下文API支持四种模式:基础(最近/频繁的文件)、广泛(跨库的语义搜索)、深度(完整的实体文件)和时间(文件及其git日志,显示事物随时间的变化)。时间模式仍然是git优于向量的关键。“我的项目是如何演变的?”需要的是差异历史,而不是余弦相似度。
*在实践中的表现*
我设置了一个示例仓库,DiffMem逐章读取《杰基尔与海德》,你可以通过提交记录观察其理解的演变: [https://github.com/Growth-Kinetics/diffmem_sample_memory/commit/93272f57076789946f2c06b2c1f920c6a99812dc](https://github.com/Growth-Kinetics/diffmem_sample_memory/commit/93272f57076789946f2c06b2c1f920c6a99812dc)
你可以看到实体文件中发生了什么变化,它绘制了哪些连接,更新了什么。这不是一个黑箱嵌入,而是你可以用眼睛阅读的markdown和git历史。
*我为什么构建这个*
我记忆力差,并且有早发性阿尔茨海默病的遗传风险。最初的目标是创建一个能够在我无法记住自己的时候记住我的实体。
DiffMem(MIT): [https://github.com/Growth-Kinetics/DiffMem](https://github.com/Growth-Kinetics/DiffMem)
示例记忆: [https://github.com/Growth-Kinetics/diffmem_sample_memory](https://github.com/Growth-Kinetics/diffmem_sample_memory)
Annabelle: [https://withanna.io](https://withanna.io)
不幸的是,我们不得不关闭,因此决定将代码开源。网上/离线有一些类似的产品。我们认为这可能对某些人有用,如果确实如此,我们将继续开发这个项目,因此发布了这篇帖子。它的功能是:允许您上传大量文档(已测试过100K份来自arxiv的文档),并向AI代理提问。与其他产品的不同之处在于:它是完全独立的,开箱即用,可以在服务器上安装并离线工作,确保完全隐私。它可以处理大量的表格/CSV文件。它类似于RAG,但更像是具有多步骤处理的研究助手。期待听到大家的反馈。
我已经构建了将近一年,并在X、Reddit和Hacker News上分享我的旅程。看起来我仍然无法打破自己的圈子,接触到更多用户。我真的相信我正在构建的产品,但获取用户似乎比构建产品更困难。<p>有什么建议吗?
在过去几周,我遇到了多个AI/API的故障——而且不止是一个提供商。
- Anthropic的Claude出现了模型超时和HTTP 500/529错误
- 最近GitHub发生故障时,访问仓库出现问题
- Supabase的数据库/API也出现了小故障
- 甚至主要云服务商也偶尔出现基础设施的短暂故障
单独来看,这些都不算令人震惊。每个系统都有可能出现故障。
但综合来看?感觉故障的频率和影响范围在增加。
这引发了一些令人不安的问题:
- 我们是否为了开发速度而过度优化,牺牲了系统的韧性?
- 小团队是否在不知情的情况下构建在越来越脆弱的技术栈上?
- 这只是可见性偏差,还是故障真的变得更加普遍?
我很好奇这里的其他人是如何看待这个问题的。
我正在开发一个视频转文本的网页应用,想分享一下以便获得反馈。核心流程很简单:上传文件,开始转录,然后在历史页面中跟踪进度,该页面在任务运行时会自动刷新。付费用户可以一次提交多个文件,并且支持对话和采访的说话者分离功能。
在过去几周,我主要专注于提高系统的可靠性。我更改了处理流程,先提取音频再进行转录,这使得长文件的处理更加稳定。我还花时间改进了故障处理,让用户在任务失败时能看到清晰的错误信息,而不是原始的模型错误。
目前定价设置非常简单:免费用户每天可以进行3次转录,有一个无限制计划,价格为每月20美元或每年120美元。
我非常希望能得到关于整体用户体验的反馈,尤其是故障/重试的行为是否合适,以及定价对首次使用的用户是否易于理解。
我们很高兴地分享我们的预印本,内容关于PantheonOS,这是一个可进化的分布式多智能体系统,用于自动基因组发现。
预印本:<a href="https://www.biorxiv.org/content/10.64898/2026.02.26.707870v1" rel="nofollow">https://www.biorxiv.org/content/10.64898/2026.02.26.707870v1</a>
网站(对所有人开放的在线平台):<a href="https://pantheonos.stanford.edu/" rel="nofollow">https://pantheonos.stanford.edu/</a>
PantheonOS结合了基于大语言模型的智能体、强化学习和智能体代码进化,超越常规分析——将最先进的算法进化到超人类的表现。
应用:
- 进化的批量校正(Harmony、Scanorama、BBKNN)和强化学习增强算法
- 强化学习增强的基因面板设计
- 在22个以上虚拟细胞基础模型中进行智能路由
- 从新生成的3D早期小鼠胚胎数据中进行自主发现
- 将人类胎儿心脏的多组学数据与3D全心脏空间数据整合
Pantheon具有高度的可扩展性,尽管目前展示的应用集中在基因组学领域,但其架构非常通用。代码现已开源,我们希望构建一个新一代的人工智能数据科学生态系统。
我想开发一款iOS应用,尽管我已经是一名软件开发人员,但我担心在我所在的国家目前无法负担得起一台Mac。如果有人有旧的Mac可以送给我,我将非常感激!
嗨,HN — 我是 Prateek Rao。我的联合创始人和我创建了 Cortexa,我们将其描述为一个针对自主记忆的彭博终端。
我一直看到一个模式:当代理出现问题时,大多数团队会对提示进行迭代,然后通过添加一个记忆层(向量数据库 + RAG)来“修复”它。这有时会有所帮助,但并不能保证正确性。在实践中,这往往会引入一种新的失败模式:代理检索到一些可疑的信息,并将其写回记忆中,仿佛它是真实的,这个错误会变得顽固。随着时间的推移,你会遇到记忆污染、循环幻觉循环,调试变成了日志考古。
Cortexa 的功能:
1. 代理决策取证(端到端的“为什么”):追踪输出/行为回到导致它们的确切检索、记忆写入和工具调用。
2. 记忆写入治理:拦截并评分记忆写入(0–1),并可选择阻止/隔离没有依据的条目,以免它们污染未来的运行。
3. 记忆卫生 + 向量存储噪声控制:自动检测并移除近似重复/低信号条目,以保持检索质量高,存储和推理成本不增加。
为什么这很重要:
可观察性是自主 AI 缺失的一层。没有它,自主性就很脆弱:小错误默默累积,部署变得风险高,工程成本上升,因为失败无法重现或归因。
适合谁:
1. 在生产中交付自主工作流的团队
2. 任何面临“未知原因”失败、记忆污染或失控上下文成本的人
3. 希望实现可审计性 + 更快调试循环的工程师
网站: [https://cortexa.ink/](https://cortexa.ink/)
希望能收到任何在大规模运行代理的人的反馈:
1. 你在生产中见过的最痛苦的代理失败模式是什么?
2. 你希望在“代理终端”中看到哪些信号(检索差异、记忆责任、工具调用跟踪、警报等)?
这些天我去新的地方,感觉非常压倒。大量低质量的投稿。<p>建议的解决方案:限制投稿仅限于拥有超过X点声望(例如500点声望)或账号年龄超过Y年(例如5年)的用户。<p>这两种条件在未来都能适应,因为用户可以在不投稿的情况下逐渐满足这两个条件。
《星际争霸2》是一款老游戏,但一直以来缺乏在游戏外部可视化重播的方式。我从零开始构建了一个重播渲染引擎,使用重播文件和Claude Code。
重播文件包含了玩家输入的采样位置坐标和指令。因此,我利用地图构建了一个等距视图,并在地图上叠加了单位图标,然后对单位随时间移动的位置进行了插值处理。
我还从游戏数据中提取了额外的指标,有些指标是基于其他指标推导出来的。
最后,我将所有这些上下文信息传递给一个大型语言模型(LLM),让它对游戏玩法进行评析,并为每位玩家提供优点和改进建议。
这并不完美,但这是一个很好的起点,可以进行迭代和改进。
让我知道你的想法!