返回首页

一周热榜

2作者: umjunsik1323 天前原帖
我认为强化学习(RL)是一种通过模型预测生成训练数据的方法——它直接促使模型扩展输出范围,因为数据的多样性增加。然而,从根本上讲,强化学习依赖于自举(bootstrapping)并存在动态目标问题,这也是其稳定性差的原因之一。近似价值函数的最有效方法之一是时序差分(TD),但这会导致样本噪声、函数逼近误差和动态目标问题。我认为我们需要在贝尔曼方程的层面上扩展纯强化学习理论,以实现更稳定的强化学习。因此,我们需要一个更好的价值函数数学基础和一个相互一致的可行逼近方法——以避免这些问题。
2作者: jcgr4 天前原帖
嘿,HN! 我是Cody,我使用了GPT Realtime,并让它访问了nvim及其原生工具,这样你就可以直接对话,而不是输入nvim命令。<p>这仍然是一个原型,但体验非常有趣。这让我想到了即将发布的Thinking Machines API。欢迎告诉我你的想法 :)