2作者: FerkiHN7 个月前原帖
我在GitHub上活跃,并尝试在Twitter上分享我的工作,但常常感觉像是在对着虚空喊叫。搞笑的表情包能获得点赞,但有意义的工具却常常无人问津。 后来我重新发现了Hacker News。即使是用一个新账户和一个小项目,得到的反馈也是真实的。人们关心、参与,感觉到被倾听,而不是被忽视。 我意识到HN不仅仅是一个开发者论坛。它就像是一个每日的思想和发现报纸。有些用户分享研究,有些人提出生活问题,还有一些人发布副项目——这一切都很契合。 > 经过18年,HN的设计没有改变——只是随着思想的演变而发展。 Twitter是用来分享搞笑内容的,而Hacker News则是用来思考的。 是什么让你每天都回到HN呢?
2作者: kcorbitt7 个月前原帖
嘿,HN,我是Kyle,OpenPipe的联合创始人之一。 强化学习是提高智能体可靠性的一种最佳技术,已被前沿实验室广泛采用。然而,由于其实现难度较大,外部社区的采用速度较慢。 将强化学习应用于新任务时,最大的挑战之一是需要一个特定任务的“奖励函数”(衡量成功的方式)。这通常很难定义,并且需要高质量的标注数据和/或显著的领域专业知识来生成。 RULER是一个即插即用的奖励函数,可以在不同任务中使用,而无需复杂的设置。 它的工作原理是向一个大型语言模型(LLM)评审员展示N条轨迹,并要求其对这些轨迹进行相对排名。这避免了大多数将LLM作为评审的方案所面临的校准问题。结合GRPO(只关注组内的相对评分),它的效果非常好(出乎意料地好!)。 我们在博客上有详细的介绍,包括4个生产任务的结果。在所有4个任务中,使用RULER+GRPO训练的小型Qwen 2.5模型超越了最佳提示的前沿模型,尽管它们的规模明显更小且运行成本更低。令人惊讶的是,它们在3/4个任务中甚至超越了使用手工设计奖励函数训练的模型! [https://openpipe.ai/blog/ruler](https://openpipe.ai/blog/ruler) 如果您觉得这有用,请给这个仓库加星,以帮助其他人找到它! [https://github.com/OpenPipe/ART](https://github.com/OpenPipe/ART)
1作者: Jaygala2237 个月前原帖
嗨,HN,我是Jay。我正在开发Indilingo,这是一款用于学习印度语言的人工智能应用程序,支持印地语、梵语、泰米尔语、卡纳达语等多种语言。 目前,它支持14种官方印度语言,并在Play商店上架,已有800多次下载。 我们是一小群朋友在印度班加罗尔共同开发这个自筹资金的项目,非常希望能得到你们的反馈! 功能介绍: 1. 实时AI驱动的个性化学习,适用于所有课程。 2. 自定义课程 - 用户可以根据自己的目标创建课程。 3. 会话练习(本周上线!) - 用户可以与AI实时练习口语,并获得即时的发音反馈。 4. 真正的无障碍学习 - 用户可以从任何支持的语言学习任何支持的语言。目前,我们提供180多种语言组合,未来将达到一千种。 这是我们网站的链接: [https://www.indilingo.in](https://www.indilingo.in) 这是Play商店的下载链接: [https://play.google.com/store/apps/details?id=com.indilingo](https://play.google.com/store/apps/details?id=com.indilingo)
1作者: jasonthorsness7 个月前原帖
随着Gemini Flash的速度如此之快,我不禁想知道大型语言模型(LLM)在请求网址时能够按需生成网页和图像会是什么样子。自发布以来已经过去几周,许多人在<a href="https://ginprov.com" rel="nofollow">https://ginprov.com</a>上创建了大量有趣的示例。我大约还有一半的Gemini积分(费用并不高),但如果用完了,使用自己的Gemini密钥进行自托管非常简单。 以下是一些示例: <a href="https://ginprov.com/dachsunds/" rel="nofollow">https://ginprov.com/dachsunds/</a> <a href="https://ginprov.com/cool-cars/" rel="nofollow">https://ginprov.com/cool-cars/</a> <a href="https://ginprov.com/coffee-in-a-golf-ball/" rel="nofollow">https://ginprov.com/coffee-in-a-golf-ball/</a> <a href="https://ginprov.com/what-is-it/" rel="nofollow">https://ginprov.com/what-is-it/</a>