最新

NPM.watch：跟踪NPM下载量、包的安全性和实时统计数据

1 分•作者: Next-Icons•大约 2 个月前•原帖

展示HN：使用RunOS部署Kubernetes应用，免费使用

1 分•作者: didierbreedt•大约 2 个月前•原帖

OVH公共云数据库故障“已解决”

1 分•作者: voodooEntity•大约 2 个月前•原帖

增强mRNA传递的纳米颗粒可以降低疫苗剂量和成本。

1 分•作者: PaulHoule•大约 2 个月前•原帖

让英伟达向中国出售H200s就像是马跑了之后再关门。

1 分•作者: pseudolus•大约 2 个月前•原帖

用于准确高效角色人工智能的情节记忆架构

1 分•作者: PaulHoule•大约 2 个月前•原帖

食品系统中的合成化学物质每年造成22000亿美元的健康负担。

1 分•作者: PJones2000•大约 2 个月前•原帖

问HN：学习一门新的编程语言还有意义吗？

1 分•作者: xparadigm•大约 2 个月前•原帖

我已经写了几年的Python代码了。但我觉得大型语言模型（LLMs）能写出比我更好的代码。我以前会保持对新技术的关注，但现在我失去了兴趣。我曾经对学习Rust很感兴趣，但现在我找不到任何动力，因为我可以轻松地用Rust编写代码。对此你有什么看法吗？

使用 MinIO 部署 Apache Doris

1 分•作者: qinchencq•大约 2 个月前•原帖

人工智能云操作系统开发

1 分•作者: dlillard•大约 2 个月前•原帖

在他们完成《GTA6》之前被解雇的Rockstar员工 [视频]

2 分•作者: accengaged•大约 2 个月前•原帖

1 分•作者: tosh•大约 2 个月前•原帖

为非传统人工智能（Unconventional AI）融资4.75亿美元的种子轮融资。

1 分•作者: victorbuilds•大约 2 个月前•原帖

SIM卡是软件工程的奇迹。

1 分•作者: ForHackernews•大约 2 个月前•原帖

std::move在C++中的工作原理

1 分•作者: 0xghost•大约 2 个月前•原帖

请问HN：你在做什么？（2025年12月）

7 分•作者: mchaver•大约 2 个月前•原帖

大家正在做什么？

实分析，游戏

1 分•作者: __rito__•大约 2 个月前•原帖

我们对人工智能代理的评估是否存在误区？

1 分•作者: imshashank•大约 2 个月前•原帖

我过去一年一直在构建人工智能代理，发现了一个令人担忧的问题：我与每个人交谈时，他们评估代理的方式都是一样的——只看最终输出，并问“这个结果正确吗？” 但这完全是错误的。一个代理可能通过错误的路径得出正确答案。它在中间步骤中可能会出现幻觉，但仍然能够得出正确的结论。它可能在技术上达成目标的同时违反约束条件。传统的机器学习指标（准确率、精确率、召回率）忽视了这一切，因为它们只关注最终输出。我一直在尝试一种不同的方法：将代理的系统提示作为真实标准，评估整个过程（而不仅仅是最终输出），并使用多维评分（而不仅仅是单一指标）。结果截然不同。突然间，我能够看到幻觉、约束违反、低效路径和一致性问题，而这些都是传统指标完全忽视的。我是不是疯了？还是整个行业都在错误地评估代理？我很想听听其他构建代理的人的看法。你们是如何评估它们的？遇到了什么问题？

年轻人为何在沟通上感到困难

1 分•作者: seinvak•大约 2 个月前•原帖

慢速汽车电梯教会了我关于产品设计的道理

1 分•作者: violinar•大约 2 个月前•原帖

上一页 1...884 885 886 887 888...4741 下一页