返回首页
最新
标准的人工智能能耗辩论将服务器端的大型语言模型(LLM)推理与服务器端的谷歌查询进行比较。我认为这忽视了在真实搜索会话中移动设备上实际发生的大部分情况。
我构建了一个完整的端到端移动搜索会话的参数模型:4G/5G无线电能耗、2.5MB页面的系统芯片(SoC)渲染成本、后台运行的程序化广告实时竞价(RTB)拍卖,以及双方的网络传输成本。然后将其与相应的LLM会话进行了比较。
在10,000次蒙特卡罗抽样中的主要发现是:在移动设备上,标准的LLM会话平均使用的能量比经典的广告支持的网页搜索会话少5.4倍。仅程序化广告就占每次会话设备电池消耗的41%。
我尝试明确说明的注意事项包括:
- 在固定的Wi-Fi/光纤环境下,优势消失
- 对于推理模型,结果相反
- 这是一个参数模型,而非实证设备测量。Greenspector已提出为版本2进行终端测量
- 适用杰文斯悖论
这是SSRN的工作论文,尚未经过同行评审。论文中详细记录了方法论和蒙特卡罗分布。乐意为假设进行辩护。
DOI: 10.2139/ssrn.6287918
嘿,HN!
我一直想讨论这个话题,经过一段时间的观察,我觉得现在有足够的证据可以安全地谈论它。我一直在尝试在电影上播放音乐,并记录其效果。它们似乎能够同步,电影变成了这首歌的音乐视频。我不确定观看这些视频的人是否会影响最终结果,但我觉得这可能会有影响。
一个非常明显的例子是这里的20:55:<a href="https://x.com/KyleSerbov/status/2044696810095255732" rel="nofollow">https://x.com/KyleSerbov/status/2044696810095255732</a>
我从未听说过有人真正讨论过这个,所以我很想知道你们对此的看法。我常常想,电影制作人是否会对观看我录制的他们电影的版本感兴趣。
我非常喜欢这个人在2:22时做的可视化效果:<a href="https://x.com/KyleSerbov/status/2046164265502212137" rel="nofollow">https://x.com/KyleSerbov/status/2046164265502212137</a>
我发现即使音乐是反向播放,它也能奏效。这里还有另一个例子:<a href="https://www.youtube.com/watch?v=w40MXiiXosY" rel="nofollow">https://www.youtube.com/watch?v=w40MXiiXosY</a>。请注意,这个视频在澳大利亚、日本、新西兰和英国是区域限制的。
我构建了一个仅在浏览器中运行的工作室,用于设计和编排MCP代理系统,以便进行开发和实验。整个技术栈——工具创建、多代理编排、RAG、代码执行——都通过WebAssembly从一个静态HTML文件中运行,无需后端。
这个项目的赌注是:WASM是一个严格的沙盒,完全免费。当你使用大型语言模型(LLM)生成工具(或手动编写工具)时,工作室会对源代码进行AST验证,懒惰地注册,并在首次调用时进行即时编译到Pyodide。SQL工具在DuckDB-WASM的Web Worker中运行。内置的RAG通过Transformers.js使用Xenova/all-MiniLM-L6-v2进行设备内嵌入。没有任何数据离开浏览器;关闭标签页,整个技术栈就消失了。WASM边界使得在本地安全执行LLM生成的代码成为可能——无需Docker,无需每个租户的容器,无需服务器。
在工具层之上,有一个包含10种编排策略的代理系统:
- 监督者(路由器 → 1个专家)
- 专家混合(并行 + 合成器)
- 顺序管道
- 计划与执行(规划者分解,工作者执行)
- 群体(同行交接)
- 辩论(参赛者 + 裁判)
- 反思(演员 + 评论者循环)
- 层级(经理通过ask_<persona>工具委派)
- 循环(小组 + 主持人)
- Map-Reduce(分割器 → 并行 → 聚合器)
你可以通过可视化方式构建团队:将工具芯片拖放到服务图上的角色节点,选择一种策略,拓扑结构会自动调整以匹配。每个角色会自动注册为MCP工具(ask_<name>),以及一个agent_chat(query, strategy?)元工具。一个捆绑的Node桥接通过标准输入输出与Claude Desktop通信,并通过WebSocket与您的标签页连接——您的浏览器变成了一个MCP服务器。
完成后,导出功能会为您提供一个真实的Python MCP服务器:server.py、agentic.py、tools/*.py、Dockerfile、requirements.txt、.env.example。导出的agentic.py是与在浏览器中运行的相同编排逻辑的忠实Python移植,因此可部署的工件与原型行为完全一致。
同时还提供了项目包。将整个项目导出为一个单独的.agentpack.json。通过扫描工具源代码中的os.environ.get(...)并与网络白名单交叉引用,自动检测所需的外部服务(OpenAI、GitHub、Stripe、Anthropic、Slack、Notion、Linear等)。接收者会获得一个导入向导,提示输入凭证。清单是可审查的、可共享的,并且从不携带秘密。
有些事情我诚实地不太确定:
- 10种策略可能太多了。我猜大多数用户只需要监督者、专家混合和辩论。欢迎提供哪些策略实际上有效的数据。
- 浏览器冷启动(Pyodide首次加载时的预热)尽管进行了积极的缓存,仍然对用户体验造成了真实的影响。
- bridge.js是唯一的非浏览器部分。托管变体显然是下一步的方向。
该项目使用Pyodide、DuckDB-WASM、Transformers.js、OpenAI聊天补全(或通过Transformers在浏览器中运行的本地Qwen 1.5 0.5B以实现完全离线模式)构建。约5K行的HTML/CSS/JS在一个文件中。
我真心好奇,在浏览器标签页中运行这么多LLM生成的代码对你来说是否合理,或者是否让你感到悚然。
大家好,我正在开发一个命令行工具,可以轻松运行Claude、Codex、Gemini、Pi和OpenCode中的任何模型。<p>它还可以作为API密钥管理器,支持多个提供商或OpenAI/Claude/Gemini账户。您可以添加OpenRouter、Poe、Vercel AI网关等。<p>该工具内置了一个免费的提供商,使用Deepseek-V4,无需登录或API密钥,准备好后可以添加您自己的密钥。<p>安装后,您可以立即尝试Claude(无需配置,无需登录):<p>aivo claude<p>希望对某些人有所帮助。