嘿,HN - 我们构建了一个基于终端的开源编码助手。
你可能听说过Claude Code,但OpenCode运行的是完整的文本用户界面(TUI),而不是典型的滚动命令行输出。
这提供了更好的用户体验,并且可以与任何大型语言模型(LLM)一起使用。我们还在努力支持多个LLM的联合使用。
它内置了对语言服务器协议(LSP)服务器的支持,因此可以捕捉到代码库中的错误。我们发现这大大减少了错误的发生。
其他一些功能包括:
- 会话管理:保存和管理多个对话会话
- 工具集成:AI可以执行命令、搜索文件和修改代码
- 持久存储:使用SQLite数据库存储对话和会话
- LSP集成:支持代码智能的语言服务器协议
- 文件变更跟踪:在会话中跟踪和可视化文件更改
- 外部编辑器支持:打开您喜欢的编辑器以撰写消息
返回首页
最新
我一直在研究嵌入(embeddings),想尝试一下基于逐词输入和加法/减法的嵌入层会产生什么结果,超越许多视频和论文提到的内容(比如显而易见的 king - man + woman = queen)。因此,我构建了一个不仅仅给出第一个答案的工具,而是根据距离/余弦相似度对匹配结果进行排序。我对它进行了些许优化,以便其他人也能试用。
目前,我的数据集中只有名词(以及一些专有名词),并选择同形异义词中最常见的解释。此外,它对大小写敏感。
我们是LayerLens,一个专注于为前沿人工智能模型构建更好资源的项目,旨在提供独立、透明的评估。Atlas是一个社区资源,旨在通过对MATH、HumanEval和MMLU等基准的独立评估,提供关于顶级基础模型性能的洞察。
LayerLens是一支由工程师和数据科学家组成的团队,他们对缺乏独立验证大型语言模型(LLM)性能的现状感到沮丧。大多数基准测试来自模型创建者本身,而对于开发者来说,构建独立的评估管道往往麻烦得不值得。虽然开源排行榜值得赞赏,但通常缺乏足够的透明度,并且对普通用户来说过于科学。
尽管评估历史上一直是衡量通用人工智能(AGI)进展的工具,但它们在验证LLM性能方面变得越来越重要。大型企业团队和独立开发者都将评估作为选择特定用例合适模型的一种方式,而这一切都依赖于单一的“准确性”指标。
Atlas是一个简单而详细的LLM分析排行榜。您可以通过评估空间查看按地区、供应商类型或特定用例排序的顶级模型。您可以使用对比功能在单个基准上比较两个模型,逐条比较每个条目的提示。对于任何单独的评估运行,您可以获得模型在各个子集上的性能简洁总结。最后,每个模型页面都有其专门的分析和信息部分。
这只是我们产品的第一版。我们最终希望为自定义模型、代理、评估等发布相同的工具套件。我们会随时解答您对我们产品的任何问题!
嗨,HN!<p>我是来自 Pig.dev 的 Erik,今天我想分享一个我们刚刚开源的新项目:<p>Muscle Mem 是一个 SDK,它记录你的代理在解决任务时调用工具的模式,并在再次遇到相同任务时以确定性方式重放这些学习到的轨迹,如果检测到边缘情况则回退到代理模式。就像 JIT 编译器一样,专注于行为。<p>在 Pig,我们为自动化传统的 Windows 应用程序(如医疗、借贷、制造等)构建了计算机使用代理。<p>我们遇到的一个反复出现的主题是,企业已经有了 RPA(纯软件脚本),并且在大多数情况下它们是有效的。对代理作为 RPA 替代方案的需求并不是为了拥有无限灵活的“AI 员工”,正如科技 Twitter/X 可能想让你认为的那样,而仅仅是因为他们的 RPA 在偶尔的边缘情况下会崩溃,而代理可以优雅地处理这些情况。<p>采用纯代理的方法被证明是非常浪费的。Windows 的可访问性 API 很差,因此你通常只能使用纯视觉代理,这样的代理每小时的代币成本大约为 40 美元,并且执行工作流程的时间是人类的 5 倍。在这种情况下,雇用一个人会更划算。<p>Muscle Mem 的目标是将 LLM 从重复自动化的热路径中解放出来,智能地在脚本执行(用于重复案例)和基于代理的自动化(用于发现和自我修复)之间切换。<p>虽然受到计算机使用环境的启发,Muscle Mem 被设计为能够推广到任何在动态环境中执行离散任务的自动化。为了找出一个通用的 API,我们进行了大量的思考,我在这篇博客中对此进行了更深入的探讨:
<a href="https://erikdunteman.com/blog/muscle-mem/" rel="nofollow">https://erikdunteman.com/blog/muscle-mem/</a><p>请查看这个代码库,考虑给它一个星标,或者深入阅读上述博客。我期待你的反馈!
嗨,Show HN,
我既紧张又兴奋地分享我在过去几个月的早晨和晚上所做的工作:家庭文件夹(Family Folder)——一个帮助你和你所爱的人保持联系、简化计划、并且不错过任何时刻的工具。
这主要是一个个人项目——虽然在我技术能力的极限时,我依赖了ChatGPT和Upwork。我喜欢学习,这段时间让我在编程、DevOps、设计、用户体验等方面进行了快速学习。
这个想法直接来源于我的个人经历:试图管理家庭生活,从新生儿到支持我母亲的记忆,生日、儿童照护的安排,以及保险文件的存放位置。现有的工具感觉太过于通用、太过于商业化,或者太混乱。我想要一个专为家庭设计的工具。
技术栈:
- Ruby on Rails 7(通过Jumpstart Pro)
- PostgreSQL
- 托管在Heroku(欧洲地区)
- S3(欧洲)用于文件上传
- (即将推出:iOS应用和AI助手)
家庭文件夹是按设计私密的——你只能看到被邀请的内容。它的设计旨在让父母或兄弟姐妹能够轻松使用,同时又足够结构化以避免混乱。
如果这听起来有用——或者如果你曾经尝试过通过群聊或共享文档来管理家庭——我非常希望能听到你的反馈。什么样的功能能让这样的工具真正适合你的家庭?
感谢你的关注!
– 托尼
[https://www.familyfolder.com](https://www.familyfolder.com)