我昨天发布了这个,但之后对其进行了些许修改。这个想法很简单——我想发现一些有趣的新网站,于是从Common Crawl数据集中随机抽取50个网站,让ChatGPT对它们进行总结,并将结果展示在页面上。然后我给自己一个小时的时间,看看是否能发现一些有趣的内容,直到刷新出一组新的网站。
在这个过程中有很多噪音和商业内容,我想找出过滤这些的办法,但除此之外,我发现了各种有趣和奇怪的东西。比如人们的旧博客、食谱、摄影作品,还有一些我从未听说过的小镇的旅游网站。这一切都很有趣。
返回首页
一周热榜
大家好,
我们一直在开发 WarpParse,这是一个基于 Rust 的开源(Apache 2.0)ETL 引擎,今天很高兴与大家分享。
我们之所以开发它,是因为发现现有工具在处理大量日志时,往往在资源效率或配置复杂性方面存在问题。WarpParse 旨在解决这些问题,具体体现在:
性能:在我们的基准测试中,吞吐量比 Vector 高出 1.5 到 8 倍。
效率:在相似负载下,CPU 使用率约为 Vector 的 1/3,内存使用率约为 37%。
领域特定语言(DSL):我们创建了 WPL(Warp Parse Language)用于强类型解析,以及 OML(Object Modeling Language)用于声明式数据增强,并集成了原生 SQL。
我们还开发了一个可视化编辑器(WpEditor),使得编写规则变得更加简单。
我们希望听到您对架构、DSL 方法或查看代码库后任何反馈的想法。
GitHub: [https://github.com/wp-labs](https://github.com/wp-labs)
编辑器: [https://editor.warpparse.ai](https://editor.warpparse.ai)
作为一个新兴的开源项目,我们深知社区的力量。希望 WarpParse 能对您有所帮助!谢谢!