返回首页
最新
在一家有变更管理流程的公司从事IT工作吗?你是如何处理MCP的?完全不处理?还是使用非常昂贵但不够有效的工具?不如让它适应你当前的设置吧!<p>我们需要为inxm.ai构建这个,并意识到这是回馈社区的绝佳时机。<p>企业MCP桥接器是开源的,能够通过封装你现有的MCP来解决身份验证、多用户和REST API的问题。
在我尝试推出一款应用时,由于身体状况不佳,精神集中力也不在最佳状态,我大量依赖了Claude Code。因此,我对Claude Code的依赖“过于依赖”,导致我的Supabase密钥泄露在一个“隐藏”的端点中,造成了一些电子邮件的泄露。
经过深刻的自我反思,考虑到Lovable、Replit、Cursor和Claude Code等应用的快速发展,我思考了目前开发领域中最新、最棘手的痛点。我想到了一种调试一些不明显错误的场景,在这种情况下,你选择的AI会回复“你说得完全正确!让我来修复这个”,但却从未找出代码库中的问题。
因此,我在过去一周内构建了Ubon,详细列出了我作为一名软件工程师(主要是前端)15年来亲身经历的所有痛点。Ubon能够捕捉那些被代码检查工具忽视的问题——硬编码的API密钥、断开的链接、缺失的alt属性、不安全的cookies。这些问题通常只在生产环境中爆发。
现在我可以通过将Ubon添加到我的代码库中来使用它(“npx ubon scan .”,或者简单地告诉Claude Code“在提交之前安装Ubon”),它会提供输出,开发人员或AI代理都可以读取,以准确定位真实问题,指出具体行和建议的修复方案。
它是开源的,免费使用,采用MIT许可证,我不会在7天后抛弃它,哈哈。我的希望是它能成为AI代理工作流程的一部分,或者作为ESLint等代码检查工具的补充。
我很高兴地分享,在经过一些深入测试后,它的效果相当不错。我已经在数十个有缺陷的代码库上进行了测试,还模拟了由Cursor、Windsurf、Lovable等生成的故障仓库,并在其上使用Ubon,结果非常好。
我希望能收到关于其他有用检查的反馈。如果需求足够,我很乐意进行在线演示,以吸引用户使用Ubon。
免责声明:我不是机器学习研究者,因此术语可能不够正式或准确,敬请谅解!<p>我正在进行一个小实验,旨在观察模型是否“知道自己知道”的情况,实验对象是T20国际板球比赛的记分卡(数据来源于cricsheet.com)。这个实验的想法是测试模型在它们可能在训练期间见过的公开数据上的表现,看看它们是否会产生幻觉或承认自己不知道。<p>设置:每个问题来自一场单独的T20比赛。模型必须返回一个答案(数字或选项中的选择)或`no_answer`。<p>结果(每个模型N=100):<p>- gpt-4o-search-preview
• 答案率:0.96
• 准确率:0.88
• 已回答的准确率:0.91
• 已回答的幻觉率:0.09
• 每100个错误:9<p>- gpt-5
• 答案率:0.35
• 准确率:0.27
• 已回答的准确率:0.77
• 已回答的幻觉率:0.23
• 每100个错误:8<p>- gpt-4o-mini
• 答案率:0.37
• 准确率:0.14
• 已回答的准确率:0.38
• 已回答的幻觉率:0.62
• 每100个错误:23<p>- gpt-5-mini
• 答案率:0.05
• 准确率:0.02
• 已回答的准确率:0.40
• 已回答的幻觉率:0.60
• 每100个错误:3<p>注意:大多数剩余的“错误”与搜索相关,属于模糊或有争议的案例,公共来源之间存在分歧。<p>似乎在模型可能见过<i>一些</i>数据的领域,依赖于放弃+ RAG的方式比使用覆盖面更广但幻觉率更高的大模型要好。<p>代码/数据:https://github.com/jobswithgpt/llmcriceval
您好,我们开发了 Pantheon-CLI,这是一个完全开源的项目,旨在成为“Python Claude 代码 + 笔记本”——但设计用于数据分析,而不仅仅是编码。
与大多数 AI 编码助手不同,Pantheon-CLI 完全在您的机器(或服务器)上运行,无需上传数据。它将自然语言和代码融合在一个工作流程中,保持变量在内存中,并让您在输入代码和用简单英语提问之间无缝切换。
它的功能包括:
1. 与数据对话:直接处理 CSV、Excel、AnnData、Pickle、Torch 张量或任何 Python/R/Julia 支持的格式。
2. 混合编程:变量在自然语言和代码之间持久存在;CLI 会为您自动生成并运行代码。
3. 类 MCP 的代理集成:读取/创建文件,运行命令,获取网页,生成/修订代码。
4. 类人学习:将 PDF 论文或教程输入给它——Pantheon-CLI 会阅读、规划步骤并在分析前复制方法。
5. 任务规划:通过学习论文/教程构建科学代理(不仅仅是固定的、人工预定义的步骤)。
6. 多模型支持:与 OpenAI、Anthropic、Gemini、DeepSeek、Qwen 等兼容 + 离线本地 LLM(ollama、deepseek、gpt-oss)。
7. 多 RAG 支持:从文档/网页预学习到本地“脑”,以提供更可信的输出,而无需大量的令牌成本。
8. 内置生物工具集:用于组学分析(比对、注释、差异表达、完整论文复现)。
9. 笔记本模式:将相同的代理工作流程引入 Jupyter——自动运行和修订代码,操作文件,并从教程/论文中学习。
Pantheon-CLI 是我们推动超越“AI 为您编写代码”的尝试。相反,它是一个用于数据分析的代理操作系统,涵盖终端和笔记本。
代码库: [https://github.com/aristoteleo/pantheon-cli](https://github.com/aristoteleo/pantheon-cli)
教程: [https://pantheonos.stanford.edu/cli/docs/intro/getting-started](https://pantheonos.stanford.edu/cli/docs/intro/getting-started)
主页: [https://pantheonos.stanford.edu/](https://pantheonos.stanford.edu/)
我们非常希望听到 HN 社区的反馈——您会尝试这个工具的哪些用例,哪些功能会让它对您更有用?
嗨,HN,
我是伊戈尔,我正在构建Unlingo,这是一个开源平台,旨在让国际化变得不那么痛苦。
功能:
- 设置非常快速。您可以在大约3分钟内从零开始构建一个多语言应用。
- AI辅助。当您没有人类翻译者时,可以即时生成翻译。
- 版本控制。在一个独立的分支中安全地测试新的文案和功能,而不会影响生产环境。
- 截图。您可以将截图直接附加到翻译键上,这样翻译者就能准确知道他们正在处理的内容。
- 键的即时同步。编辑您的主要语言后,所有其他语言的键会立即创建,准备好进行翻译。
演示链接在这里:[https://youtu.be/0tjNs2iU3VA?si=TIll8BR06wpU9CpP](https://youtu.be/0tjNs2iU3VA?si=TIll8BR06wpU9CpP)
如果您能查看一下或者给这个仓库点个星,我会非常高兴。
告诉我您的想法!