返回首页
最新
我们评估了OpenAI的GPT-5在横向推理能力方面与其他模型的表现,采用了一种基于英国著名且极具挑战性的游戏节目《Only Connect》的方法,该节目考验参赛者的模式匹配和知识问答能力。
洞见:
- GPT-5表现非常出色,但仅比o3略好。
- 模型的冗长程度对准确性和聪明才智几乎没有影响,唯一有趣的是在序列回合中。
- 然而,“最小”冗长会导致准确性急剧下降。
我们将在接下来的几天内发布更多来自我们扩展测试的结果。我们正在研究不同类型的评估(模型在序列中处理单个项目与处理2、3、4个项目的表现如何)。我们还希望观察模型在3人团队中的表现,以复制游戏节目的格式。
我们未能找到《Only Connect》游戏在训练材料中的证据(当然,这种情况可能会有所改变)。最后,我们正在考虑用《纽约时报》的《Connections》来复制连接墙的结果,但我们怀疑这些内容可能已包含在训练材料中,这将影响结果。
大家好,
我制作了一个开源库,用于在Zig编程语言中使用契约设计(DbC)原则。
这个库叫做Zig-DbC,目前提供以下功能:
- 一个简单的API,用于定义前置条件、后置条件和不变式。
- 在`Debug`、`ReleaseSafe`和`ReleaseSmall`模式下,契约是激活的,以便尽早捕捉错误。
- 在`ReleaseFast`模式下,所有检查在编译时被移除,确保零性能损耗。
- 一个可选模式,用于处理返回错误的函数中的部分状态变化。
- 透明的错误处理机制,将错误从您的代码传播到调用者。
项目的GitHub仓库:[https://github.com/habedi/zig-dbc](https://github.com/habedi/zig-dbc)
我正在建立一个由HN社区手动策划的游戏目录。
在浏览HN时,我发现了几款小而精彩的游戏,否则很难找到这些游戏。因此,我开始了一项个人任务,将这些游戏收集到一个公开的目录中,并提供开源代码和开放数据(所有内容都可以在GitHub上找到: [https://github.com/labarilem/hn-games](https://github.com/labarilem/hn-games))。
目前,该目录的数据更新至2022年底。我的计划当然是收集所有数据直到今天,并持续更新这个目录。
我发布了这个早期版本的目录,希望能收集一些见解和反馈,特别是关于用户界面/用户体验(UI/UX),这些部分主要是通过大型语言模型(LLM)编写的,以加快进度(我在这些领域并不是专家)。
您可以通过以下地址浏览该目录:
- [https://hackernews.games/](https://hackernews.games/)
- [https://hn-games.marcolabarile.me/](https://hn-games.marcolabarile.me/)
请告诉我您对这个项目的看法!
大家好!我之所以开发这个工具,是因为我厌倦了手动处理我的网络应用的客户支持,而且无法找到一个可靠的人工智能系统来处理请求。
我尝试了不同的人工智能工具来帮助处理支持票,但当它们错误地处理请求时,根本无法确定原因,更难以找出我需要做什么来改进系统。
我想逐步拆解人工智能在思考问题时的逻辑,但所有内容都必须压缩到一个提示中。由于缺乏足够的干净训练数据进行微调,我只能进行提示工程的猜测。
Chainix 的功能是:你可以将步骤拖放到一个可视化的流程图中。每个步骤都有自己的推理指令,并根据输出结果分支到不同的下一步。人工智能还可以在流程中暂停,以调用你的函数或检查变量,然后继续。这使你能够直观地绘制出人工智能如何思考问题的过程(就像流程图一样)。
我在设计时考虑了灵活性——你可以创建简单的两步工作流程,也可以构建具有多个分支和条件的复杂自定义逻辑。
关键是:当出现问题时,你可以清楚地看到哪个步骤失败了。与其说是一个大的黑箱,不如说是一系列较小的、可调试的部分。我的支持流程可能会对票据进行分类,查找账户信息,检查已知问题,然后撰写回复。当人工智能做错了什么时,我可以看到“哦,这一步错误地分类了票据”,然后只需修复那个推理步骤(或添加一个新的)。
现在,它可靠地处理了我约 60% 的支持请求(并正确地忽略了其余部分),所以我对此非常满意!最大的收获是我可以实际看到人工智能如何逐步推理,因此修复问题变得简单明了,而不是猜测。
这适用于任何涉及文本解释和行动的工作流程——内容审核、文档处理、潜在客户资格审核等。
你可以在 [https://www.chainix.ai](https://www.chainix.ai) 尝试一下——我很想知道其他人是否也遇到过与人工智能工具相同的问题!也想了解其他人可能希望用这种方法构建的工作流程。