返回首页
最新
我创建了TextPolicy,因为我希望有一种方法可以在不需要集群或云GPU的情况下研究用于文本生成的强化学习。一台MacBook就足够了。
这个工具包很简单:
- 实现了GRPO和GSPO算法
- 提供了自定义奖励函数的装饰器接口
- 包含LoRA和QLoRA工具
- 在MLX上运行,因此在Apple Silicon上效率很高
它并不打算用于生产。其目的是学习和实验:理解算法,测试想法,观察奖励设计如何影响行为。
安装方法是通过pip:
```
pip install textpolicy
```
在README中有一个最小示例。
我对以下内容感兴趣的反馈:
- API的清晰度
- 示例的实用性
- 这是否降低了新手进入强化学习的门槛
代码库地址:github.com/teilomillet/textpolicy
使用人工智能监控话题、来源和页面。当您的规则匹配或发生新事件时,立即获取警报,减少噪音,增加信号。
大多数监控工具不过是华丽的谷歌提醒。它们会将所有信息一股脑地抛给你。“今天有200条关于你关键词的提及。祝你好运。”
互联网发展得太快。当你查看Twitter、Reddit、HackerNews、行业博客、招聘页面、研究论文等时,重要的事情可能已经在三小时前发生,或者三天前就发生了。
例如:
每天早上:检查15个标签页。每午餐:浏览社交媒体动态。每晚上:了解行业新闻。结果还是错过了竞争对手的融资公告。还是在两天后才知道那个病毒式传播的人工智能公告。还是在大家都知道后才发现那篇改变游戏规则的研究论文。
AyeWatch为您监控整个互联网——包括新闻网站、博客、社交媒体、文档、研究论文等……但重点是:只有在真正重要的事情发生时,它才会打扰您。
不是“有人随口提到你的关键词。”也不是“这是来自47个不同来源的同一新闻故事。”而是真正重要的信息,信号。
今天下载应用程序,开始使用有限的免费配额来体验。AyeWatch监控一切,让您专注于重要的事情。再也不用担心标签页过多,再也不会有错失恐惧症,也不再会晚知道信息。
嘿,HN!我开发了Scryptogram,这是一款谜题游戏,玩家会得到一个类别和一个填空的摘要,然后通过填入字母来揭示主题。我一直很喜欢填字游戏、Wordle和问答游戏,但我想要一种结合了问答游戏“恍然大悟”时刻和字母填充满足感的游戏。
每个谜题以一个类别(例如“虚构角色”)和一个空白的摘要开始。当你猜测字母时,单词会慢慢填充,一旦你找出主题,就可以继续完成剩下的谜题。
我在前端使用React开发,后端则使用AWS(S3用于谜题,DynamoDB用于统计和归档,Cognito用于身份验证)。我仍在尝试调整谜题的难度、保留功能和每日包的设计。
你可以在这里尝试:<a href="https://scryptogram.com" rel="nofollow">https://scryptogram.com</a> - 欢迎所有反馈!