4作者: brockmeier8 个月前原帖
我有一个大约10万个输入输出对的数据集,想用来微调Llama。不幸的是,这个数据集并不是很干净,所以我需要花一些时间来整理它。例如,我只想保留英文记录,并且只想包括那些输入中包含粗俗语言的记录(因为这是我用例所需的)。我还有很多类似的检查要进行,而一般来说,我无法以确定性的方式进行这些检查,因为它们需要理解自然语言。 让GPT-4o告诉我(对于单个记录)它是否是英文,以及是否包含粗俗语言,这相对简单。但如果我想对整个数据集进行这些检查,我需要设置一些异步管道,这一切变得非常繁琐。 总体而言,这个清理过程实际上花了我很长时间。我在想,大家通常用什么工具来处理这个问题?有没有什么解决方案可以帮助我更快地完成?我原本期待有一些不错的产品,可以让我上传数据集并通过提示与之互动,例如(“删除所有不包含粗俗语言的记录”),但我似乎找不到任何相关的东西。我是不是漏掉了什么显而易见的东西?
3作者: moughxyz8 个月前原帖
我不断看到人们为自己的特定需求和自动化制作 macOS 应用程序。我原以为,支付苹果开发者账户的费用以及与代码签名和公证作斗争的麻烦会让大多数人却步。 Viberunner 是一个容器环境,让你可以通过简单的提示构建 macOS 应用程序。你可以在新标签页、新窗口,甚至作为系统菜单栏应用运行这些应用。 你可以创建以下内容: - 剪贴板管理器 - 图片编辑器 - 一个将每日笔记保存到桌面文件夹的记事工具 - 一个整理桌面的工具,用于清理截图 - 一个管理和启动 Android 模拟器的应用 - …等等 Viberunner 中的应用具有深层系统访问权限,能够让你尽可能地掌控,因此几乎没有什么是做不到的。 在 alpha 版本期间完全免费。我真的很希望能得到反馈,以了解这是否有用! 我向一些人展示了这个,他们说这真的很酷,但它真的有用吗? 期待你的反馈 :) (演示视频: [https://x.com/moughxyz/status/1932423349738860979](https://x.com/moughxyz/status/1932423349738860979))
12作者: raphlinus8 个月前原帖
幻灯片:<a href="https://docs.google.com/presentation/d/1f_vKBJMaD68ifBO2j83lBly9Zdk-2bsvj_DIHXxvcuk" rel="nofollow">https://docs.google.com/presentation/d/1f_vKBJMaD68ifBO2j83l...</a>