免责声明:我不是机器学习研究者,因此术语可能不够正式或准确,敬请谅解!<p>我正在进行一个小实验,旨在观察模型是否“知道自己知道”的情况,实验对象是T20国际板球比赛的记分卡(数据来源于cricsheet.com)。这个实验的想法是测试模型在它们可能在训练期间见过的公开数据上的表现,看看它们是否会产生幻觉或承认自己不知道。<p>设置:每个问题来自一场单独的T20比赛。模型必须返回一个答案(数字或选项中的选择)或`no_answer`。<p>结果(每个模型N=100):<p>- gpt-4o-search-preview
• 答案率:0.96
• 准确率:0.88
• 已回答的准确率:0.91
• 已回答的幻觉率:0.09
• 每100个错误:9<p>- gpt-5
• 答案率:0.35
• 准确率:0.27
• 已回答的准确率:0.77
• 已回答的幻觉率:0.23
• 每100个错误:8<p>- gpt-4o-mini
• 答案率:0.37
• 准确率:0.14
• 已回答的准确率:0.38
• 已回答的幻觉率:0.62
• 每100个错误:23<p>- gpt-5-mini
• 答案率:0.05
• 准确率:0.02
• 已回答的准确率:0.40
• 已回答的幻觉率:0.60
• 每100个错误:3<p>注意:大多数剩余的“错误”与搜索相关,属于模糊或有争议的案例,公共来源之间存在分歧。<p>似乎在模型可能见过<i>一些</i>数据的领域,依赖于放弃+ RAG的方式比使用覆盖面更广但幻觉率更高的大模型要好。<p>代码/数据:https://github.com/jobswithgpt/llmcriceval
返回首页
最新
您好,我们开发了 Pantheon-CLI,这是一个完全开源的项目,旨在成为“Python Claude 代码 + 笔记本”——但设计用于数据分析,而不仅仅是编码。
与大多数 AI 编码助手不同,Pantheon-CLI 完全在您的机器(或服务器)上运行,无需上传数据。它将自然语言和代码融合在一个工作流程中,保持变量在内存中,并让您在输入代码和用简单英语提问之间无缝切换。
它的功能包括:
1. 与数据对话:直接处理 CSV、Excel、AnnData、Pickle、Torch 张量或任何 Python/R/Julia 支持的格式。
2. 混合编程:变量在自然语言和代码之间持久存在;CLI 会为您自动生成并运行代码。
3. 类 MCP 的代理集成:读取/创建文件,运行命令,获取网页,生成/修订代码。
4. 类人学习:将 PDF 论文或教程输入给它——Pantheon-CLI 会阅读、规划步骤并在分析前复制方法。
5. 任务规划:通过学习论文/教程构建科学代理(不仅仅是固定的、人工预定义的步骤)。
6. 多模型支持:与 OpenAI、Anthropic、Gemini、DeepSeek、Qwen 等兼容 + 离线本地 LLM(ollama、deepseek、gpt-oss)。
7. 多 RAG 支持:从文档/网页预学习到本地“脑”,以提供更可信的输出,而无需大量的令牌成本。
8. 内置生物工具集:用于组学分析(比对、注释、差异表达、完整论文复现)。
9. 笔记本模式:将相同的代理工作流程引入 Jupyter——自动运行和修订代码,操作文件,并从教程/论文中学习。
Pantheon-CLI 是我们推动超越“AI 为您编写代码”的尝试。相反,它是一个用于数据分析的代理操作系统,涵盖终端和笔记本。
代码库: [https://github.com/aristoteleo/pantheon-cli](https://github.com/aristoteleo/pantheon-cli)
教程: [https://pantheonos.stanford.edu/cli/docs/intro/getting-started](https://pantheonos.stanford.edu/cli/docs/intro/getting-started)
主页: [https://pantheonos.stanford.edu/](https://pantheonos.stanford.edu/)
我们非常希望听到 HN 社区的反馈——您会尝试这个工具的哪些用例,哪些功能会让它对您更有用?
嗨,HN,
我是伊戈尔,我正在构建Unlingo,这是一个开源平台,旨在让国际化变得不那么痛苦。
功能:
- 设置非常快速。您可以在大约3分钟内从零开始构建一个多语言应用。
- AI辅助。当您没有人类翻译者时,可以即时生成翻译。
- 版本控制。在一个独立的分支中安全地测试新的文案和功能,而不会影响生产环境。
- 截图。您可以将截图直接附加到翻译键上,这样翻译者就能准确知道他们正在处理的内容。
- 键的即时同步。编辑您的主要语言后,所有其他语言的键会立即创建,准备好进行翻译。
演示链接在这里:[https://youtu.be/0tjNs2iU3VA?si=TIll8BR06wpU9CpP](https://youtu.be/0tjNs2iU3VA?si=TIll8BR06wpU9CpP)
如果您能查看一下或者给这个仓库点个星,我会非常高兴。
告诉我您的想法!
你好,这是我创建的一个Python框架,旨在让创建自定义代码检查规则的过程变得更加轻松。
主要特点:
- 使用简便(大约20行代码即可创建一个功能完整的代码检查器)
- 支持多种文件格式(如描述中所述)
- 支持多种忽略/noqa指令(逐行忽略、范围忽略、整个文件忽略、运行时选择规则)
- 单次检查可以覆盖文件的所有元素,甚至所有文件
- 直接与Python的AST(抽象语法树)配合使用
- 提供教程和API参考,以便用户更轻松地使用
总的来说,这个框架对于我个人的代码检查器来说相当实用,因此我决定将其变成一个开源项目。
希望你们玩得开心,期待听到你们的反馈和建议!