返回首页
一周热榜
作为一名开发者,我的工作流程在过去几个月中发生了彻底的变化,但我觉得自己仍在探索最佳的工作模式。我对其他人在哪些具体的转折点上找到了灵感感到好奇。是提示方式的改变、技术栈的调整,还是学会了何时不信任输出结果?
我认为强化学习(RL)是一种通过模型预测生成训练数据的方法——它直接促使模型扩展输出范围,因为数据的多样性增加。然而,从根本上讲,强化学习依赖于自举(bootstrapping)并存在动态目标问题,这也是其稳定性差的原因之一。近似价值函数的最有效方法之一是时序差分(TD),但这会导致样本噪声、函数逼近误差和动态目标问题。我认为我们需要在贝尔曼方程的层面上扩展纯强化学习理论,以实现更稳定的强化学习。因此,我们需要一个更好的价值函数数学基础和一个相互一致的可行逼近方法——以避免这些问题。
我在GitHub上有一些项目。最近我收到了很多来自虚假程序员和机器人的垃圾PR和请求。大多数都是为了提升他们的个人资料。显然,星标数量也被夸大了。<p>你还在使用哪些其他平台来管理你的项目?
嘿,HN!
我是Cody,我使用了GPT Realtime,并让它访问了nvim及其原生工具,这样你就可以直接对话,而不是输入nvim命令。<p>这仍然是一个原型,但体验非常有趣。这让我想到了即将发布的Thinking Machines API。欢迎告诉我你的想法 :)