HackerNews中文版

1 分•作者: XzetaU8•12 天前•原帖

苹果操作系统因设计缺陷而不安全，以便于监控（2024）

1 分•作者: fsflover•12 天前•原帖

2 分•作者: hmmmmmmmmmmmmmm•12 天前•原帖

1 分•作者: studiousbunt•12 天前•原帖

嗨，HN，多年来，我一直深受分析瘫痪的困扰。这不仅仅是针对重大人生决策，连一些小决定，比如产品方向、功能优先级，甚至是微不足道的选择，我也会如此。我的默认模式是模拟每一个可能的结果，列举风险和边缘案例，然后……什么也不做。最终，我意识到一个不太舒服的事实：我花在优化决策上的时间比实际执行的时间还要多。于是，我为自己开发了一个小工具：SpinForClarity。它的功能如下： - 你用简单的英语描述一个问题 - 一个大型语言模型生成候选选项 - 这些选项在决策轮中可视化 - 你旋转决策轮，故意引入随机性，迫使自己做出决定 - 系统随后为选定的选项生成简短的理由，以减少反复推敲在技术实现方面： - 前端：Next.js + React + TypeScript - 后端：Python（FastAPI） - 认证与数据库：Supabase - AI：OpenAI API（用于选项生成和解释）我并不认为这可以替代思考或适当的分析。对我来说，它更像是一个强制执行的工具——一种打破僵局、偏向执行的方式。我在这里分享这个主要是为了学习： - 这对其他人来说是一个真实的问题，还是只有我一个人有这种困扰？ - 在什么情况下你会实际使用这样的工具？ - 这感觉像是一个有用的工具，还是一个噱头？ - 你会去掉、简化或重新设计什么？应用链接： [https://spinforclarity.com](https://spinforclarity.com) 感谢你的阅读。我非常希望能得到诚实的反馈——尤其是批评意见。 Sagar

绕过Windows管理员保护

1 分•作者: el_duderino•12 天前•原帖

一个（过度设计的）苹果Scribble克隆版

2 分•作者: virtualorca•12 天前•原帖

女性因拍摄社交媒体内容而被拍摄，随后在网上遭到骚扰

1 分•作者: randycupertino•12 天前•原帖

我决定不再使用API了。

1 分•作者: speckx•12 天前•原帖

Fedora Asahi Remix 现在已在 Apple M3 上运行。

12 分•作者: todsacerdoti•12 天前•原帖

JuiceSSH – 请把我的专业功能还给我

46 分•作者: jandeboevrie•12 天前•原帖

展示HN：Cua-Bench – 一款用于图形用户界面环境中AI代理的基准测试工具

7 分•作者: someguy101010•12 天前•原帖

大家好，我们很高兴分享 Cua-Bench（[https://github.com/trycua/cua](https://github.com/trycua/cua)），这是一个开源框架，用于评估和训练在不同环境下的计算机使用代理。计算机使用代理在不同用户界面（UI）上的表现差异巨大——在 Windows 11 上成功率为 90% 的代理，在 Windows XP 上执行相同任务时可能仅为 9%。问题出在操作系统主题、浏览器版本和 UI 变体上，而现有的基准测试并未涵盖这些因素。现有的基准测试（如 OSWorld、Windows Agent Arena、AndroidWorld）虽然很出色，但各自独立运行——不同的测试框架、不同的格式，没有标准化的方式来跨平台测试相同的代理。更重要的是，它们仅用于评估。我们需要能够生成训练数据并运行强化学习（RL）循环的环境，而不仅仅是测量性能。 Cua-Bench 采取了不同的方法：它是一个统一框架，标准化了跨平台的环境，并支持完整的代理开发生命周期——基准测试、训练、部署。使用 Cua-Bench，您可以： - 通过一个命令行界面（CLI）在多个基准测试中评估代理（本地任务 + OSWorld + Windows Agent Arena 适配器） - 在不同的操作系统变体上测试相同的代理（Windows 11/XP/Vista、macOS 主题、Linux、通过 QEMU 的 Android） - 从自然语言提示生成新任务 - 创建用于 RL 训练的模拟环境（如 Spotify、Slack 的 shell 应用，带有程序化奖励） - 在代理评估之前运行 oracle 验证以验证环境 - 实时监控代理运行，查看运行轨迹和截图所有这些功能都可以在 macOS、Linux、Windows 和 Android 上运行，并且可以自托管。开始使用的方法：安装 cua-bench： ``` % pip install cua-bench ``` 运行基本评估： ``` % cb run dataset datasets/cua-bench-basic --agent demo ``` 打开监控仪表板： ``` % cb run watch <run_id> ``` 在多个工作进程中进行并行评估： ``` % cb run dataset datasets/cua-bench-basic --agent your-agent --max-parallel 8 ``` 想要在不同的操作系统变体上测试？只需指定环境： ``` % cb run task slack_message --agent your-agent --env windows_xp % cb run task slack_message --agent your-agent --env macos_sonoma ``` 从提示生成新任务： ``` % cb task generate "book a flight on kayak.com" ``` 使用 oracle 实现验证环境： ``` % cb run dataset datasets/cua-bench-basic --oracle ``` 模拟环境对于 RL 训练特别有用——它们是 HTML/JS 应用，可以在 10 多种操作系统主题上渲染，并进行程序化奖励验证。无需为训练循环启动实际的虚拟机。我们看到团队使用 Cua-Bench 来： - 在移动和桌面环境中训练计算机使用模型 - 生成大规模训练数据集（与实验室合作处理数百万张跨操作系统变体的截图） - 使用 shell 应用模拟器进行 RL 微调 - 在操作系统主题和浏览器版本之间进行系统评估 - 构建任务注册表（与 Snorkel AI 合作进行任务设计和数据整理，类似于他们的 Terminal-Bench 工作） Cua-Bench 完全开源，采用 MIT 许可证。我们正在积极开发它，作为 Cua（[https://github.com/trycua/cua](https://github.com/trycua/cua)）的一部分，这是我们的计算机使用代理 SDK，我们非常欢迎您的反馈、错误报告或功能建议。 GitHub: [https://github.com/trycua/cua](https://github.com/trycua/cua) 文档: [https://cua.ai/docs/cuabench](https://cua.ai/docs/cuabench) 技术报告: [https://cuabench.ai](https://cuabench.ai) 我们会在这里回答任何技术问题，期待您的评论！

使用PDB调试信息反编译Xbox游戏

10 分•作者: orange_redditor•12 天前•原帖

关于向后兼容性的一个轶事

21 分•作者: speckx•12 天前•原帖

技术的青春期

10 分•作者: jasondavies•12 天前•原帖

胰腺癌为何如此致命：新研究揭示隐藏的侵袭通路

1 分•作者: bookofjoe•12 天前•原帖

来自实际5G云核心安全评估的零信任经验教训

1 分•作者: teleforce•12 天前•原帖

人工智能编程初创公司Replit接近以90亿美元估值获得融资

1 分•作者: janandonly•12 天前•原帖

国土安全部（DHS）不断尝试但未能揭露在线匿名批评移民与海关执法局（ICE）的人士。

2 分•作者: duxup•12 天前•原帖

为何过度特权的人工智能代理将成为企业下一个盲点

2 分•作者: speckx•12 天前•原帖

同频检查：会议后60秒快速检查以发现不一致之处

1 分•作者: anticlickwise•12 天前•原帖

最新