10作者: scrollaway大约 1 个月前原帖
我们评估了OpenAI的GPT-5在横向推理能力方面与其他模型的表现,采用了一种基于英国著名且极具挑战性的游戏节目《Only Connect》的方法,该节目考验参赛者的模式匹配和知识问答能力。 洞见: - GPT-5表现非常出色,但仅比o3略好。 - 模型的冗长程度对准确性和聪明才智几乎没有影响,唯一有趣的是在序列回合中。 - 然而,“最小”冗长会导致准确性急剧下降。 我们将在接下来的几天内发布更多来自我们扩展测试的结果。我们正在研究不同类型的评估(模型在序列中处理单个项目与处理2、3、4个项目的表现如何)。我们还希望观察模型在3人团队中的表现,以复制游戏节目的格式。 我们未能找到《Only Connect》游戏在训练材料中的证据(当然,这种情况可能会有所改变)。最后,我们正在考虑用《纽约时报》的《Connections》来复制连接墙的结果,但我们怀疑这些内容可能已包含在训练材料中,这将影响结果。
4作者: habedi0大约 1 个月前原帖
大家好, 我制作了一个开源库,用于在Zig编程语言中使用契约设计(DbC)原则。 这个库叫做Zig-DbC,目前提供以下功能: - 一个简单的API,用于定义前置条件、后置条件和不变式。 - 在`Debug`、`ReleaseSafe`和`ReleaseSmall`模式下,契约是激活的,以便尽早捕捉错误。 - 在`ReleaseFast`模式下,所有检查在编译时被移除,确保零性能损耗。 - 一个可选模式,用于处理返回错误的函数中的部分状态变化。 - 透明的错误处理机制,将错误从您的代码传播到调用者。 项目的GitHub仓库:[https://github.com/habedi/zig-dbc](https://github.com/habedi/zig-dbc)
2作者: labarilem大约 1 个月前原帖
我正在建立一个由HN社区手动策划的游戏目录。 在浏览HN时,我发现了几款小而精彩的游戏,否则很难找到这些游戏。因此,我开始了一项个人任务,将这些游戏收集到一个公开的目录中,并提供开源代码和开放数据(所有内容都可以在GitHub上找到: [https://github.com/labarilem/hn-games](https://github.com/labarilem/hn-games))。 目前,该目录的数据更新至2022年底。我的计划当然是收集所有数据直到今天,并持续更新这个目录。 我发布了这个早期版本的目录,希望能收集一些见解和反馈,特别是关于用户界面/用户体验(UI/UX),这些部分主要是通过大型语言模型(LLM)编写的,以加快进度(我在这些领域并不是专家)。 您可以通过以下地址浏览该目录: - [https://hackernews.games/](https://hackernews.games/) - [https://hn-games.marcolabarile.me/](https://hn-games.marcolabarile.me/) 请告诉我您对这个项目的看法!