返回首页
最新
这真的让人感到沮丧,你们也有同样的体验吗?
Perplexity在第一次回应时并不会生成代码,总是先询问你是否需要。
我在排查存储空间不足的原因时,发现了这个文件夹:`/Library/Application Support/com.apple.idleassetsd/Customer/4KSDR240FPS`,里面大约有47GB的macOS为屏幕保护程序下载的4K/240FPS电影。<p>够了,于是我切换到了Asahi Linux。现在运行Sway时,我的整个会话(Firefox打开)大约只使用2GB的内存。我能识别所有正在运行的进程——虽然有些小问题,但为了控制权和释放的空间,这些都是值得的。
我创建了TextPolicy,因为我希望有一种方法可以在不需要集群或云GPU的情况下研究用于文本生成的强化学习。一台MacBook就足够了。
这个工具包很简单:
- 实现了GRPO和GSPO算法
- 提供了自定义奖励函数的装饰器接口
- 包含LoRA和QLoRA工具
- 在MLX上运行,因此在Apple Silicon上效率很高
它并不打算用于生产。其目的是学习和实验:理解算法,测试想法,观察奖励设计如何影响行为。
安装方法是通过pip:
```
pip install textpolicy
```
在README中有一个最小示例。
我对以下内容感兴趣的反馈:
- API的清晰度
- 示例的实用性
- 这是否降低了新手进入强化学习的门槛
代码库地址:github.com/teilomillet/textpolicy