最新

3 分•作者: jucasoliveira•11 天前•原帖

59 分•作者: rurp•11 天前•原帖

1 分•作者: Miyamura80•11 天前•原帖

1 分•作者: alecf•11 天前•原帖

我是在Infocom游戏中长大的，当微软实际上开源了《Zork 1/2/3》时，我非常想弄清楚如何使用大型语言模型（LLMs）来让你输入任何想要的内容。我总觉得这些游戏“理解”的语言量非常有限——即使在当时它们已经算是相当先进了。所以我想出了如何用Tambo进行封装……（并在浏览器中运行游戏引擎），基本上你输入的任何内容都会被“翻译”成Zork语言并传递给游戏——然后大型语言模型会接收游戏的输出，并根据需要添加一些风味。（顶部的小“>_”按钮可以显示实际的游戏输入）让我感到非常惊讶的是多轮指令——你可以让它“探索房子里的所有房间，直到找不到更多为止”，它会连续进行10多个“回合”的游戏……就像是为Zork编写的Claude Code一样。

展示HN：ML-Ralph – 一个用于机器学习实验的自主代理循环

1 分•作者: psoto•11 天前•原帖

我们为机器学习工作流调整了 RALPH。它能够自主运行实验，形成假设，训练模型，评估结果，并在证据基础上进行迭代。支持 W&B 集成，适用于长时间运行的任务。完整的审计记录。在 Kaggle Higgs Boson 竞赛中测试，几小时内进入前30名。仍处于早期阶段，还有很多改进空间。欢迎反馈。github.com/pentoai/ml-ralph

问HN：人工智能社区在哪里？

1 分•作者: A_Duck•11 天前•原帖

我多年来一直使用Hacker News、lobste.rs等网站来了解科技动态。在这里，对人工智能工具和实际应用的发展关注较少。还有哪些社区适合继续关注这些内容呢？

FreeTaxUSA 的中文翻译是“自由税务美国”。

1 分•作者: Alupis•11 天前•原帖

展示HN：MikeBrain – AI代理的治理框架

1 分•作者: EternalAlgrthm•11 天前•原帖

通过Thunderbolt实现可靠的25千兆以太网连接

1 分•作者: kohlschuetter•11 天前•原帖

用于工程化假单胞菌phiKMV样噬菌体的组装系统

1 分•作者: PaulHoule•11 天前•原帖

Clawdbot FOMO（害怕错过）

1 分•作者: gintokinx•11 天前•原帖

展示HN：JavaScript中的YouTube转录API（NPM包）

1 分•作者: rajatmehra05•11 天前•原帖

一个小型的 JavaScript/TypeScript 库，用于在无需 OAuth 的情况下获取 YouTube 字幕。适用于索引、摘要和人工智能实验。欢迎反馈。

展示HN：我不再指望我的大型语言模型会合作

2 分•作者: seanlf•11 天前•原帖

一次运行中出现42个验证错误。Claude在道歉而不是编写HTML。OAuth令牌在摘要处理中间过期。然后我修复了约束条件。八天内，零失败，零干预。秘密不在于更好的提示……而在于将大型语言模型（LLM）视为一个受限的函数：使用模式验证的工具调用，拒绝格式错误的输出并强制重试，采用两次处理架构将编辑判断与格式化分开，以及无聊的开发运维（重试逻辑、速率限制、结构化日志记录）。Claude的调用大约占2000行系统中的30行。大部分工作都是围绕它的其他部分。<a href="https://seanfloyd.dev/blog/llm-reliability" rel="nofollow">https://seanfloyd.dev/blog/llm-reliability</a> <a href="https://github.com/SeanLF/claude-rss-news-digest" rel="nofollow">https://github.com/SeanLF/claude-rss-news-digest</a>

Rust中的参数化CAD

50 分•作者: ecto•11 天前•原帖

时间站模拟器

17 分•作者: FriedPickles•11 天前•原帖

展示HN：首个自主机器学习和人工智能工程代理

2 分•作者: svij137•11 天前•原帖

我是创始人。我创建了NEO，这是一个专门为人工智能（AI）和机器学习（ML）工程工作流程设计的AI代理。之前我在现有工具上屡屡碰壁：这些工具适用于短期、线性的任务，但一旦工作流程变得长期、状态驱动和反馈驱动时，它们就会崩溃。在实际的机器学习工作中，你不仅仅是生成代码然后就走。你需要探索数据、训练模型、评估结果、调整假设、重新运行实验、比较指标、生成文档并进行迭代；这一过程往往持续数小时或数天。大多数现代编码代理已经超越了单一的提示。它们可以规划步骤、编写文件、运行命令并对错误做出反应。问题在于，当机器学习工作流程变得长期且反馈密集时，仍然会出现崩溃。训练任务、评估、重试、指标比较和部分失败仍然被视为短暂的副作用，而不是持久的状态。一旦工作流程持续数小时，涉及多个实验或迭代评估，你要么一直监控代理，要么重启大部分过程。反馈确实存在，但系统无法可靠地从中恢复。 NEO试图以实际发生的方式来建模机器学习工作。它是一个执行端到端机器学习工作流程的AI代理，而不仅仅是代码生成。工作被分解为明确的执行步骤，包含状态、检查点和中间结果。来自指标、评估或失败的反馈直接输入到下一步，而不是强迫进行全面重启。你可以暂停运行，检查发生了什么，调整假设，然后从中断的地方继续。这里有一个例子供你参考：你可以要求NEO探索一个数据集，训练几个基线模型，比较它们的性能，并生成图表和简短报告。NEO会加载数据，进行探索性数据分析（EDA），训练模型，评估它们，注意到如果某个模型表现不佳或失败，进行调整并继续。如果训练需要一个小时，而其中一个模型在45分钟时崩溃，你并不需要重新开始。NEO会检查故障，修复它，然后继续。扩展文档：<a href="https://docs.heyneo.so/#/vscode" rel="nofollow">https://docs.heyneo.so/#/vscode</a> 欢迎随时询问有关NEO的问题。

展示HN：开源机器人 – 精选项目与互动3D URDF查看器

2 分•作者: Tomas0413•11 天前•原帖

展示HN：用于PyTorch的分布式训练可观察性（TraceML）

2 分•作者: traceml-ai•11 天前•原帖

展示HN：一个使用SwiftUI构建的4.8MB原生iOS语音备忘录应用程序

2 分•作者: karamalaskar•11 天前•原帖

嘿，HN，我想分享一个我正在开发的项目，叫做 Convoxa。它是一个原生 iOS 的转录/总结工具。我有两个主要目标：保持高效和保护隐私。技术栈 100% Swift 和 SwiftUI：没有繁重的跨平台封装或冗余的依赖。二进制大小：最终构建的大小仅为 4.8 MB。转录：使用苹果最新的语音 API，以实现最大程度的隐私和效率。挑战：绕过 4K 上下文限制最大的技术难题是处理苹果的基础模型。默认的上下文窗口限制为 4096 个标记，这对于超过 10 分钟的会议记录几乎没有用处。我最终构建了一种递归分块方法，以“喂养”模型长文本数据，而不丢失对话的全局上下文。我使用滑动窗口的方法，每个块的总结为下一个块提供信息，确保最终输出在块之间的接缝处不会出现“幻觉”。现在它在支持的硬件上足够稳定，可以处理长音频，同时完全在设备上进行处理。隐私与 AI 模式设备端：需要苹果智能 - 完全本地处理。云端：提供智能洞察的推理（零数据保留）。我目前处于预售阶段（将于 2 月 3 日发布），非常希望能从这个社区获得一些关于性能和分块逻辑的反馈。 App Store: [https://apps.apple.com/us/app/convoxa-ai-meeting-minutes/id6755150446](https://apps.apple.com/us/app/convoxa-ai-meeting-minutes/id6755150446)

有多少种象棋游戏可能性？

1 分•作者: jmount•11 天前•原帖

上一页 1...157 158 159 160 161...4739 下一页