最新

1 分•作者: Anh_Nguyen_vn•大约 2 个月前•原帖

我正在构建 *StillMe*，一个开源的“透明RAG”框架，努力做到不假装自己知道一切。与其仅仅提示一个大型语言模型（LLM）并寄希望于结果，StillMe 采取了以下措施： - 通过一个 *多层验证链* 处理所有答案（6个核心验证器 + 条件验证器，根据上下文最多可达13个） - 自动修复缺失的引用和虚构的“经验” - 记录 *系统级步骤*（RAG检索、验证器、时间分解） - 将“我不知道”视为一种 *一流的、诚实的状态*，并进行明确的认识追踪 --- ## StillMe 实际上做了什么对于每个用户查询，StillMe： 1. 检测意图（哲学、技术或事实） 2. 相应地路由和过滤 RAG 上下文 3. 构建安全提示（考虑到令牌和语言） 4. 调用底层的 LLM（本地或云端） 5. 运行 *验证器链*： - `CitationRequired` → 添加 `[基础知识]` 或真实的网络/RAG 引用 - `EvidenceOverlap` → 检查答案与检索到的上下文（仅在上下文可用时） - `Ego-Neutrality` → 移除拟人化语言（“我感觉”，“我的经验”等） - `SourceConsensus` → 检测多个来源之间的矛盾（仅在有2个以上来源时） - `EthicsAdapter` → 避免不安全的建议，同时保持诚实 6. 记录结构化时间： - RAG 检索延迟 - LLM 推理延迟 - 验证与后处理 --- ## 真实的日志摘录（单一哲学问题） ```log StillMe 哲学查询跟踪（真实后端日志摘录） [INFO] 检测到哲学问题 — 正在过滤技术 RAG 文档 [INFO] 检索到3个基础知识文档（RAG缓存命中） [WARNING] 估计令牌超过安全限制 — 切换到最小哲学提示 [WARNING] 检测到缺失引用 — 自动修复为 [基础知识] [WARNING] Ego-Neutrality 验证器移除了拟人化术语：[‘trải nghiệm’] --- 延迟 --- RAG: 3.30s | LLM: 5.41s | 总计: 12.04s ``` --- ## 我为什么要构建这个如今大多数 LLM 系统： - 隐藏它们的推理过程 - 草率处理引用 - 夸大信心 - 将“我不知道”视为失败而 StillMe 则走向相反的方向： - *透明优先*：每个重大决策都有记录 - *认识诚实*：允许（并鼓励）说“我不知道” - *模型无关*：与本地和云端 LLM（DeepSeek、OpenAI、Ollama）兼容 - *无需微调*：所有行为在框架层面强制执行 --- ## 寻求反馈与贡献者我是一名来自越南的独立开发者。StillMe 已经： - 作为后端 + 仪表板运行 - 集成了真实的学习管道（RSS、arXiv、维基百科 - 每4小时更新一次） - 使用了一个实时的 RAG 系统和基础文档仓库链接：[https://github.com/anhmtk/StillMe-Learning-AI-System-RAG-Foundation](https://github.com/anhmtk/StillMe-Learning-AI-System-RAG-Foundation) 我希望能得到关于以下方面的反馈： - 验证器架构 - 更好的日志结构和可观察性 - 使项目更友好于贡献者 - 任何可以压力测试“诚实/透明”声明的想法感谢阅读 — 如果有人感兴趣，我很乐意回答问题并分享更多日志、图表或内部信息。

没有“行星货币”，也不是假图表。

1 分•作者: m-hodges•大约 2 个月前•原帖

社交雷达：布莱克·肖尔，超音速航空公司Boom的创始人兼首席执行官

1 分•作者: rokgregoric•大约 2 个月前•原帖

驯服CI怪兽：我如何将我们的单一代码库构建时间缩短了超过66%

1 分•作者: mleonhard•大约 2 个月前•原帖

保罗·克鲁格曼与保罗·凯德罗斯基对话

2 分•作者: DanielKehoe•大约 2 个月前•原帖

OkayWebHost - 一个简单的、位于印度的托管服务。

2 分•作者: okaywebhost_com•大约 2 个月前•原帖

嗨，HN，我正在进行一个名为 OkayWebHost 的小项目，这是一个托管服务，我之所以创建它，是因为我周围很多人（本地企业、医生、朋友们在做副业项目）需要快速、可靠的托管服务，但他们没有技术能力去管理 VPS 服务器、设置 CloudPanel、配置缓存、管理备份或保护他们的 WordPress 安装。印度大多数主流托管服务提供商要么过度销售共享计划，要么让托管服务变得极其昂贵。我不断遇到希望享受 VPS 优势（速度、控制、稳定性）但又不想承担实际维护负担的人。因此，我围绕 CloudPanel 创建了一个轻量级、具有明确方向的托管服务。到目前为止，我已经构建了以下内容： • 基于 CloudPanel 的技术栈（Nginx + PHP-FPM、Redis、MariaDB）开箱即用，经过预配置以优化性能。用户可以享受这些好处，而无需接触面板，除非他们愿意。 • 个人化的入门指导每个网站都是由我手动配置的（目前如此）。没有“点击就祈祷”的仪表板。进行适当的 DNS 设置、服务器调优、SSL、缓存、速率限制和安全加固。 • 隔离环境每个项目都有自己的 VPS 环境。我完全避免了共享主机的“吵闹邻居”问题。 • 以 WordPress 为中心的体验自动对象缓存、图像优化建议，以及插件/主题限制，以保持性能和安全性。 • 简单的定价我希望这对自由职业者、代理机构、医生和中小企业（尤其是在印度）保持可及性。我并不想与 Kinsta、SiteGround 或 Cloudways 等巨头竞争。这一切的开始是因为我帮助了一些人加速他们极其缓慢的 WordPress 网站，这引发了更多的请求，最终促使我建立一个合适的服务。目前，我自己做所有事情：配置服务器、自动化部署、编写仪表板、处理支持。这是一个令人着迷的学习过程。我希望从 HN 社区获得反馈： 1. 我接下来应该关注什么，以使这个服务真正有用？开发者工具？API？Git 部署？更好的入门指导？自助控制面板？ 2. 在托管领域，你看到哪些痛点是小型提供商仍然可以解决的？ 3. 如果你在使用托管服务，你希望哪一项做得特别出色？如果有人感兴趣，这里是网站： https://okaywebhost.com 我很乐意回答任何问题——技术决策、技术栈、部署过程、CloudPanel 的特点、定价选择、扩展限制，甚至是作为独立创始人尝试启动托管服务时遇到的麻烦部分。感谢阅读，期待你们的见解。 —— Jayant

停止破坏TLS

24 分•作者: todsacerdoti•大约 2 个月前•原帖

特纳奖2025：Nnena Kalu成为首位获得该奖项的学习障碍者

1 分•作者: petethomas•大约 2 个月前•原帖

展示HN：The Box – 在云中并行运行多个Claude CLI代理

1 分•作者: firdavs9512•大约 2 个月前•原帖

嗨，HN，我是一个独立开发者，遇到了一个相同的问题：我希望 Claude CLI 能够同时处理多个任务，但在本地我只能一次运行一个实例。因此，我构建了 The Box。它允许你在云中启动隔离的沙盒环境，并并行运行 Claude CLI 代理。你只需编写提示，选择一个 GitHub 仓库，其余的由它处理——创建一个分支，完成工作，并打开一个 PR。核心工作流程： - 连接你的 GitHub 仓库 - 使用提示创建任务 - Claude CLI 在隔离的沙盒中运行 - 完成后通知你（浏览器推送或 Telegram） - 审核并合并 PR 技术栈：后端服务使用 Go（Fiber），前端使用 Next.js，PostgreSQL，Redis 用于信号传递，RabbitMQ 用于任务队列。工作进程在 Docker 容器中运行 Claude CLI。目前免费使用（有使用限制），我正在完成支付集成。希望能收到任何尝试过扩展 AI 编码工作流程的人的反馈。 [https://the-box.dev](https://the-box.dev)

燃油发动机汽车在全球重新获得人气

1 分•作者: alephnerd•大约 2 个月前•原帖

AI模型时间线

1 分•作者: hhdyhaha•大约 2 个月前•原帖

一项气候研究的撤回，堪称经典

1 分•作者: petethomas•大约 2 个月前•原帖

LearnFlux：人工智能驱动的学习助手

1 分•作者: detectmeai•大约 2 个月前•原帖

Databricks的LLM基准测试 – OfficeQA

1 分•作者: adityanambiar•大约 2 个月前•原帖

问HN：谁解决了丑陋的Stripe收据问题？

1 分•作者: umarmaaz•大约 2 个月前•原帖

Stripe的API非常出色，但他们的默认收据看起来很糟糕。我很好奇：你们有没有自定义过收据？花了多长时间？这对你的品牌或客户信任真的有影响吗？如果有人提供一个10分钟的无代码解决方案，收费29美元/月，你会考虑吗？我之所以问这个，是因为我在考虑开发这个，但不确定这是否是一个真正的问题，还是只是我个人的小烦恼。任何数据点都很受欢迎。

静水压力诱导单个干细胞的成骨分化

1 分•作者: PaulHoule•大约 2 个月前•原帖

HuggingFace 技能：用一句话微调任何大型语言模型，费用为 0.30 美元。

4 分•作者: adiian•大约 2 个月前•原帖

你们中有没有人使用大型语言模型（LLMs）来为大型企业应用程序创建完整的功能？

2 分•作者: not_that_d•大约 2 个月前•原帖

首先让我澄清一下。我并不讨厌大型语言模型（LLMs），我会向它们提问，触发代理执行一些我大致知道最终目标的任务，并对应用程序的小部分进行分析。话虽如此，每当我给它一些稍微复杂的任务，比如在单个文件脚本中执行某些操作时，它总是让我失望。要么代码质量很差，要么方法糟糕得像是一个完全不知道该怎么做的人，或者它完全开始做我在初始提示中明确表示不想要的事情。有时，当这种情况发生时，我会请我的LLM爱好者的同事来帮忙，但他们也无法“修复”它，而我却被认为是因为“提示错误”或“缺乏正确的上下文”而做错了。我创建了很多“Agents.md”文件，把文件放入上下文窗口……但都没有用。当我需要进行全新项目或概念验证（PoC）时，它的反应速度很快，但将其应用于现有的大型应用程序时却失败了。我唯一感到“高效”的时候，是在使用我完全不熟悉的语言或技术时，但我也不知道最终得到的功能代码是否存在我不知道的问题。你们当中有谁真的在使用LLMs为大型企业应用程序创建完整的功能吗？

重新审视《让我们构建一个编译器》

31 分•作者: cui•大约 2 个月前•原帖

软件设计是什么？（1992年）

1 分•作者: classified•大约 2 个月前•原帖

上一页 1...886 887 888 889 890...4741 下一页