2作者: umjunsik132大约 20 小时前原帖
我认为强化学习(RL)是一种通过模型预测生成训练数据的方法——它直接促使模型扩展输出范围,因为数据的多样性增加。然而,从根本上讲,强化学习依赖于自举(bootstrapping)并存在动态目标问题,这也是其稳定性差的原因之一。近似价值函数的最有效方法之一是时序差分(TD),但这会导致样本噪声、函数逼近误差和动态目标问题。我认为我们需要在贝尔曼方程的层面上扩展纯强化学习理论,以实现更稳定的强化学习。因此,我们需要一个更好的价值函数数学基础和一个相互一致的可行逼近方法——以避免这些问题。
2作者: jerpint大约 21 小时前原帖
嘿,HN, 我创建了 woltspace,旨在让我在离开电脑时与我的编码助手进行互动。它是完全容器化的,因此您可以在它们的沙箱(小屋)内给予它们完全的访问权限。 目前它支持 Claude Code。每个会话都可以通过 Telegram 或 Slack 进行控制。得益于 Cloudflare 隧道,您可以从任何地方完全访问运行会话的终端。 Wolts 是具有自己个性、目标和记忆系统的生物。Wolts 的能力各不相同,浣熊是最聪明的(opus),而海狸则更快(sonnets)。每个 wolt 还管理自己的网站,显示在一个本地的分屏中;一侧是终端,另一侧是 wolt 的实时输出。 一个 wolt 可以构建全栈应用程序,您可以自我托管并通过隧道从任何地方访问。最重要的是,所有这些都在您的机器上运行。您拥有和控制一切。 它是完全开源的:github.com/jerpint/woltspace 我在寻找反馈,如果您觉得这有用,请告诉我!
4作者: BlueMatt大约 21 小时前原帖
几周前,GitHub决定禁用我们开源组织(lightningdevkit)所有的GitHub Actions(包括自托管的运行器)访问权限,原因不明。由于我们中有些人恰好在一家拥有大型GitHub企业账户的公司工作,我们试图通过公司代表进行上报,他们告诉我们,问题似乎是一些非组织成员的临时贡献者因使用Actions进行加密挖矿而被标记。由于该组织在技术上并不在我们的企业账户下,我们不得不等待几周才能得到关于解禁的回复……结果却被告知我们“似乎参与了违反”GitHub服务条款的活动。他们列举了一些违反服务条款的活动示例,而我们并没有做过这些,显然该组织在持续集成中也没有进行任何形式的挖矿。 由于我们已经有很多理由考虑离开GitHub(停机、由于客户端JavaScript的大幅增加而导致的网站速度持续变慢、过去十年没有新功能、当PR评论超过50条后无法加载、贡献者被禁用(没有进行加密挖矿)导致潜在有用的PR被搁置、支持响应缓慢等等),这更像是对其他人的警告,而不是寻求帮助的尝试。 当然,GitHub目前正面临大量AI代理账户涌入,导致垃圾邮件和其他无用内容激增,因此我对那边的工作人员表示同情。但这并不意味着我们必须使用他们提供的(历史上优秀的)免费产品,我们也可以选择不使用。 对于那些不知情的人来说,codeberg/self-hosted forgejo可以导入整个GitHub仓库,包括历史问题、PR、评论等。
1作者: stopachka大约 21 小时前原帖
当我开始我的编程职业生涯时,我记得读过杰夫·迪恩的《每个程序员都应该知道的延迟数字》,并受到启发。可惜,十多年过去了,我从未完全内化所有的数字。 直到最近,我发现了西蒙·埃斯基尔德森的演讲和关于程序员“餐巾纸数学”的GitHub仓库。我喜欢他的推理,决定现在真正内化这些数字。 于是我制作了 baserates.dev。 这是一个间隔重复程序,教你西蒙的餐巾纸数学,并结合了杰夫·迪恩列表中的一些内容。主要的变化是:我加入了CPU指令,比如L1缓存读取。我还加入了一些新手背景知识,比如如何发音字符μ,以及提醒你纳秒和微秒哪个更大。 这个应用程序会自动保存你的进度,不需要身份验证。大部分逻辑是“随性编码”的:我把所有链接都提供给了Claude。我使用InstantDB作为后端,主要是为了支持游客身份验证和保存进度。我在这个项目上花费的大部分时间都是在核实数字的正确性。 希望你喜欢这个应用! [1]: [https://gist.github.com/jboner/2841832](https://gist.github.com/jboner/2841832) [2]: [https://www.youtube.com/watch?v=IxkSlnrRFqc](https://www.youtube.com/watch?v=IxkSlnrRFqc) [3]: [https://github.com/sirupsen/napkin-math](https://github.com/sirupsen/napkin-math) [4]: 免责声明:我是InstantDB的创始人 [5]: 一件有趣的事:我让Claude在亚马逊上启动了一堆机器,以确认同一可用区、跨可用区和跨区域请求的延迟数字。