2作者: andrewmonostate5 个月前原帖
简要概述 一个小型、与供应商无关的推理循环,将令牌的对数概率/困惑度/熵转化为针对小型大语言模型(LLM)的单次精炼过程。 功能介绍 - 在生成过程中捕获对数概率/前k个候选,计算困惑度和令牌级熵。 - 当简单阈值触发时,最多触发一次精炼;将一个紧凑的“不确定性报告”(不确定的令牌 + 前k个替代 + 本地上下文)传递回模型。 - 在我们对技术问答/数学/代码的测试中,一个小型模型以约三分之一的成本恢复了大部分“推理”质量,同时精炼了约三分之一的输出。 构建原因 我发现“推理”模型表现得像昂贵的黑箱。同时,标准推理在softmax归一化之前和之后(对数概率)已经计算出有用的信号,而我们通常会将其丢弃。这个循环尝试了你能想到的最简单的方法:利用这些信号来决定何时(以及在哪里)再次思考。 如何尝试 GitHub(笔记本 + 最小代码):[https://github.com/monostate/weave-logprobs-reasoning-loop](https://github.com/monostate/weave-logprobs-reasoning-loop) 论文(简短 & 工程师撰写):[http://arxiv.org/abs/2509.00079](http://arxiv.org/abs/2509.00079) 博客(更多背景):[https://monostate.ai/blog/entropy-refinement-blog](https://monostate.ai/blog/entropy-refinement-blog) 要求:Python,能够暴露对数概率的API(已在OpenAI非推理4.1上测试)。需要OPENAI_API_KEY和WEAVE以实现可观察性。运行笔记本,它会打印指标并显示哪些令牌触发了精炼。 技术栈/备注 - Python,简单循环(无重训练)。 - 使用Responses API的对数概率/前k个候选;指标:困惑度、最大令牌熵、低置信度计数。 - Weave用于轻量级日志记录/可观察性(可选)。 我学到的东西/重要事项 - 传递替代方案(不仅仅是“这看起来不确定”)可以防止过度修正。 - 一个简单的或规则(困惑度/最大熵/低置信度计数)可以捕捉互补的失败模式。 - 数值在不同供应商之间可能会漂移;保持方法与供应商无关比追逐脆弱的配对更好。 局限性/注意事项 - 需要暴露对数概率/前k个候选的API。 - 结果具有指示性——不是排行榜;重点在于模型内部的收益(单次通过与+循环)。 - 阈值可能需要根据领域进行轻微调整。 - 仅限一次通过;不是思维链的替代品。 请求/反馈 - 在你的模型和想法上运行它(例如,4o-mini、v3、带有对数概率的Llama变体),如果愿意,可以在GitHub的PR中分享日志,我们欢迎PR - 我会给予信用和链接。 总之,如果你发现让小型模型以这种方式进行推理有用,请告诉我!
1作者: maxim-fin5 个月前原帖
我开发了一个基于Node.js的“深度研究者”网络应用(MIT许可证)。该应用可以搜索互联网,或者在需要时搜索科学文章数据库,然后根据用户的请求创建带有引用的结构化综述。 该应用需要您自己的API密钥,以运行OpenAI的语言模型和网络搜索工具。语言模型的供应商可以轻松更换,但替换网络搜索工具则需要一些工作。 - GitHub 仓库: [https://github.com/Antibody/deep-researcher-node](https://github.com/Antibody/deep-researcher-node)
1作者: sourabh865 个月前原帖
大家好, 由于市面上缺乏一个干净、准确且功能丰富的 JSON 比较工具,我制作了 jsontoolbox 比较工具。 这是唯一一个: - 进行实时比较 - 在浏览 JSON 时动态显示 JSON 路径 - 允许类型/粘贴、从文件导入或在编辑器中拖放 1/2 个文件进行比较 - 让你选择是否要同步滚动 - 仅在你想查看排序差异时对两个 JSON 进行排序 - 允许你交换两个 JSON - 让你以自定义文件名分别下载每个 JSON - 完全在客户端运行 - 没有广告 - 提供深色/浅色模式 它也是目前最好的 JSON 格式化/压缩工具之一 :) 我知道市面上有很多这样的工具,但作为开发者,没有一个能满足我的使用需求。请试用一下,并分享反馈。
1作者: adavinci5 个月前原帖
嗨,HN——我一直在琢磨一个低成本的副项目,结合了我最喜欢的两件事:电影和谜题。这个项目变成了“场景”,这是一个每日猜谜游戏,每一轮都是一系列线索,指向一部电影。 目标是尽可能少地使用线索来猜出电影。我简单地把它拼凑在一起,所以我主要想知道这些谜题(以及这个想法本身)是否有趣。 我知道每日谜题游戏并不是每个人的菜,但如果你喜欢电影或联想挑战,这可能会合你的胃口。到目前为止,我主要是和家人和朋友一起玩,每次都能引发关于线索和答案的有趣争论。 在经典模式下,你会得到一串单词,它们都与同一部电影相关联: ``` BENCH → BAR → FOSTER → NUMBERS → JANITOR (答案:心灵捕手) ``` 在影迷模式下,每个线索都是另一部电影,挑战在于找出它们与答案之间的共同主题: ``` FACE/OFF → FREAKY FRIDAY (共同主题:身体互换电影) ``` 我自己编写所有的谜题,所以这更像是一门艺术而非科学。目前,游戏在最后揭示答案,线索的公平性则有待讨论——不过我一直在考虑是否也要解释每个线索与答案之间的具体主题。我仍在调整线索的风格和难度平衡,并思考还有什么可以让它更值得讨论。 非常想听听你的想法——关于这个游戏、模式、线索等等。 在这里试试: [https://www.scenes.fyi/play](https://www.scenes.fyi/play)
2作者: StefanBatory5 个月前原帖
当提到高考时,我经常看到它与美国的大学录取方式进行对比。但我从未看到它与欧洲或印度的考试进行对比,我觉得它们其实很相似——你应该在整个高中阶段为此学习,而分数决定了你能上哪所大学——如果能上大学的话。在美国,它似乎被过于异国情调化了,而对我这个波兰人来说,它“只是”我们高中考试的更难的对应版本。 我不知道可以在哪里询问这个问题,感觉HN是最合适的地方。