11作者: ambrood10 个月前原帖
嘿,HN, Spark 事件日志的大小可达到数百兆字节,提供了大量关于工作负载的洞察,但理解这些日志一直以来都是一个挑战。我们最近开发了一款轻量级工具,能够自动解析 Spark 事件日志,并提供针对性的洞察,帮助您优化数据作业。 无论您是在寻找瓶颈,还是在平衡性能与成本,这款分析器都能为您提供实时的配置建议、数据倾斜分析等功能。 想知道它是如何工作的?请查看这个简短的 Loom 视频进行演示: [https://www.loom.com/share/07348eb54f6b440da93f96753937792a?sid=33b38c16-8b46-4b40-a3e9-7c470d6a3044](https://www.loom.com/share/07348eb54f6b440da93f96753937792a?sid=33b38c16-8b46-4b40-a3e9-7c470d6a3044) 我们非常希望听到您的反馈——请访问 [https://app.datasre.ai](https://app.datasre.ai) 并告诉我们您的想法!
7作者: tomasol10 个月前原帖
我使用 Rust、wasmtime 和 WASM 组件模型构建了一个轻量级引擎,用于持久执行和确定性工作流。它的主要用途是运行可靠的、长时间运行的工作流,这些工作流可以在发生故障后自动恢复。希望能得到对这一方法和潜在用例的反馈!
5作者: OG_BME10 个月前原帖
大家好,我是梅森,我很高兴与大家分享我最近在做的一个有趣的副项目:Repo Roast。 对我来说,Github往往感觉像是一个严肃(有时甚至是无趣)的地方。我创建这个网站是为了展示开发者人性化、搞笑的一面。Repo Roast 是基于我们在 Merit Systems 内部开发的 LLM 驱动的 GitHub 分析工具构建的。 历史上,LLM 的一个弱点就是幽默感。我发现,只要给出合适的提示,在大规模应用中,它们通常能够很好地识别幽默。我们尝试了几种不同的模型来调整成本和效果,最终采用了一种策略,让 gpt-4o-mini 进行非常轻的过滤,以减少对 GPT-4o 的调用次数,从而进行实际的幽默评分。有趣的是,我们的第一次提示尝试竟然引出了大量更为激进的成人内容,这很搞笑,尽管 OpenAI 做了很多审查。 到目前为止,我们已经处理了过去 90 天的历史评论,并每小时持续处理新的评论。理论上,只要有足够的兴趣来证明成本是合理的,我们可以在更广泛的历史窗口上运行这个项目! Repo Roast 并不是为了让你成为更好的或更高效的开发者。你可以将它用作排行榜或招聘工具(如果你在寻找个性),或者仅仅是用来分散注意力的方式! 如果你有任何有趣的 Github 互动经历,我很希望你能在下面分享。 谢谢大家! --梅森 [0] [https://www.merit.systems/](https://www.merit.systems/)