2作者: umjunsik132大约 22 小时前原帖
我认为强化学习(RL)是一种通过模型预测生成训练数据的方法——它直接促使模型扩展输出范围,因为数据的多样性增加。然而,从根本上讲,强化学习依赖于自举(bootstrapping)并存在动态目标问题,这也是其稳定性差的原因之一。近似价值函数的最有效方法之一是时序差分(TD),但这会导致样本噪声、函数逼近误差和动态目标问题。我认为我们需要在贝尔曼方程的层面上扩展纯强化学习理论,以实现更稳定的强化学习。因此,我们需要一个更好的价值函数数学基础和一个相互一致的可行逼近方法——以避免这些问题。
2作者: jerpint大约 22 小时前原帖
嘿,HN, 我创建了 woltspace,旨在让我在离开电脑时与我的编码助手进行互动。它是完全容器化的,因此您可以在它们的沙箱(小屋)内给予它们完全的访问权限。 目前它支持 Claude Code。每个会话都可以通过 Telegram 或 Slack 进行控制。得益于 Cloudflare 隧道,您可以从任何地方完全访问运行会话的终端。 Wolts 是具有自己个性、目标和记忆系统的生物。Wolts 的能力各不相同,浣熊是最聪明的(opus),而海狸则更快(sonnets)。每个 wolt 还管理自己的网站,显示在一个本地的分屏中;一侧是终端,另一侧是 wolt 的实时输出。 一个 wolt 可以构建全栈应用程序,您可以自我托管并通过隧道从任何地方访问。最重要的是,所有这些都在您的机器上运行。您拥有和控制一切。 它是完全开源的:github.com/jerpint/woltspace 我在寻找反馈,如果您觉得这有用,请告诉我!
4作者: BlueMatt大约 22 小时前原帖
几周前,GitHub决定禁用我们开源组织(lightningdevkit)所有的GitHub Actions(包括自托管的运行器)访问权限,原因不明。由于我们中有些人恰好在一家拥有大型GitHub企业账户的公司工作,我们试图通过公司代表进行上报,他们告诉我们,问题似乎是一些非组织成员的临时贡献者因使用Actions进行加密挖矿而被标记。由于该组织在技术上并不在我们的企业账户下,我们不得不等待几周才能得到关于解禁的回复……结果却被告知我们“似乎参与了违反”GitHub服务条款的活动。他们列举了一些违反服务条款的活动示例,而我们并没有做过这些,显然该组织在持续集成中也没有进行任何形式的挖矿。 由于我们已经有很多理由考虑离开GitHub(停机、由于客户端JavaScript的大幅增加而导致的网站速度持续变慢、过去十年没有新功能、当PR评论超过50条后无法加载、贡献者被禁用(没有进行加密挖矿)导致潜在有用的PR被搁置、支持响应缓慢等等),这更像是对其他人的警告,而不是寻求帮助的尝试。 当然,GitHub目前正面临大量AI代理账户涌入,导致垃圾邮件和其他无用内容激增,因此我对那边的工作人员表示同情。但这并不意味着我们必须使用他们提供的(历史上优秀的)免费产品,我们也可以选择不使用。 对于那些不知情的人来说,codeberg/self-hosted forgejo可以导入整个GitHub仓库,包括历史问题、PR、评论等。
1作者: stopachka大约 23 小时前原帖
当我开始我的编程职业生涯时,我记得读过杰夫·迪恩的《每个程序员都应该知道的延迟数字》,并受到启发。可惜,十多年过去了,我从未完全内化所有的数字。 直到最近,我发现了西蒙·埃斯基尔德森的演讲和关于程序员“餐巾纸数学”的GitHub仓库。我喜欢他的推理,决定现在真正内化这些数字。 于是我制作了 baserates.dev。 这是一个间隔重复程序,教你西蒙的餐巾纸数学,并结合了杰夫·迪恩列表中的一些内容。主要的变化是:我加入了CPU指令,比如L1缓存读取。我还加入了一些新手背景知识,比如如何发音字符μ,以及提醒你纳秒和微秒哪个更大。 这个应用程序会自动保存你的进度,不需要身份验证。大部分逻辑是“随性编码”的:我把所有链接都提供给了Claude。我使用InstantDB作为后端,主要是为了支持游客身份验证和保存进度。我在这个项目上花费的大部分时间都是在核实数字的正确性。 希望你喜欢这个应用! [1]: [https://gist.github.com/jboner/2841832](https://gist.github.com/jboner/2841832) [2]: [https://www.youtube.com/watch?v=IxkSlnrRFqc](https://www.youtube.com/watch?v=IxkSlnrRFqc) [3]: [https://github.com/sirupsen/napkin-math](https://github.com/sirupsen/napkin-math) [4]: 免责声明:我是InstantDB的创始人 [5]: 一件有趣的事:我让Claude在亚马逊上启动了一堆机器,以确认同一可用区、跨可用区和跨区域请求的延迟数字。
3作者: hmokiguess大约 23 小时前原帖
我已经使用Claude Code的20x Max计划一段时间了,但从上周开始,似乎发生了某些变化,我收到了很多529错误。<p>我的工作流程没有改变,通常的并发级别也没有变化,他们是否调整了限制?
3作者: homonoidian大约 24 小时前原帖
Wirewright的理念是将程序和算法视为物理机制,作为存在于一个不变的符号世界中的机器或机器的社会,并通过时间步进来观察会发生什么。尤其是最后这一部分让我想起了细胞自动机。 换句话说,在Wirewright中,程序被建模为“名词”或相互作用的“名词”的“社会”(可以理解为数据结构)。然后,这个世界受到物理法则的约束——符号物理;这是这里唯一的“动词”(可以理解为函数)。因此,在Wirewright中,我们可以说,从某种意义上讲,算法等于结构,而结构的演变等于计算。我倾向于将其简化为“结构即计算”,但如果单独看待,这可能并不准确。 现在,我想你们可能在想Wirewright到底是什么。事实上,我看到规则要求我必须清晰明了地告诉你Wirewright是什么。我会尽量说明,但请注意,最终我知道的和你们一样少 :^) 我的手在写,我的脑子在思考。 我很难明确地说Wirewright是什么。请查看README文件,里面有我对这个问题的几次尝试。如果你有兴趣自己推测,可以查看教程。不过,我仍然不确定README或教程是否回答了确切的问题;我对自己在Wirewright上的大部分工作还没有收到反馈,因此任何反馈都是受欢迎的,除了我想“我不明白这是什么”;这种反馈我自己也能生成,没什么冒犯的意思 :^) 如果没有一个公开的GitHub仓库,且我没有在这里和那里发布一些公告,你可能会认为我在秘密开发这个项目。你看,这种事情通常不是人们会谈论的,尤其是在“野外”;否则你很快就会被贴上古怪或完全疯狂的标签。 无论如何,Wirewright不是一个框架,不是一个用户界面工具包,也不是一个集成开发环境。它也不是一种编程语言。我认为我在这里试图探索不同事物的交集,比如细胞自动机、项重写、符号计算、数据流等。我也容易在某些页面上偏离主题,进入一个可以称之为“民间生物学”的领域;生物学,尤其是神经生物学,对我有很大的启发。当然,灵感并不意味着复制或正式学习。事实上,如果这里有生物学家,请在决定探索项目的深度时“关闭”你的眼睛、耳朵和所有其他感官 :^) 对我来说,当我在生物学中看到有趣的东西时,我会兴奋地想,“哦,我也想这样做,我不在乎怎么做!” 这个项目在某种程度上与我一起有机地演变,吸收了我很多的想法(但大多数是他人的想法;例如,Varela、Maturana、Wolfram),并将它们混合在一起。我会说这是我的一个游乐场,多年来已经变得足够一致,以至于我不再害怕尝试向世界讲述它。也就是说,大约两年前,Wirewright还是一个我甚至无法用类比来描述的无形物体。现在我至少可以尝试用类比来说明。所有这些“符号物理”的内容是我最近在识别项目实际发展方向时的成果。 最后,作为一个免责声明,请注意我在我所谈论的所有事情上都是一个业余爱好者,从编程到生物学再到哲学。所以也许这一切都是老生常谈,我所说的这些词和想法毫无意义,甚至是愚蠢的。也许确实如此。不管怎样,我希望至少这种综合看起来对你们中的一些人有趣,即使确切的措辞和我在这里那里插入的小哲学感觉有点不妥。 抱歉文字有点长。