15作者: forthwall9 个月前原帖
本周早些时候,我在HN上发现了一个包含一堆加州车牌的批准/拒绝数据集,所以我把它做成了一个游戏!希望你们喜欢!
5作者: exAspArk9 个月前原帖
嗨,HN!我们是Evgeny和Arjun,我们正在为初创公司构建一种更简单的数据分析方式。 自从我们开源了针对分析优化的Postgres只读副本([https://github.com/BemiHQ/BemiDB](https://github.com/BemiHQ/BemiDB))以来,我们开始听到一个熟悉的故事。团队们会连接Postgres,感到松了一口气,因为他们不需要处理复杂的ETL管道,但一旦想要将HubSpot、Stripe等的数据进行联接,就会遇到瓶颈。他们会采用一些临时的解决方案,比如使用Airbyte将数据同步到Postgres,然后再自动同步到他们的BemiDB分析数据库。 我们希望消除初创公司在扩展时必须添加的数据复杂性,这就是为什么BemiDB现在也允许连接任何补充数据源。这使得它成为一个零ETL的数据仓库,适合那些不想使用典型的重量级仓库和昂贵ETL的公司。 在技术实现上,我们使用Apache Iceberg(配合Parquet数据文件)存储在S3中。这允许实现无底线的低成本存储、以列存储的压缩数据,以及保证与其他数据工具兼容的开放格式。我们使用Trino来帮助进行表的维护和压缩。 我们嵌入了DuckDB作为内存分析的查询引擎,适用于复杂查询。凭借高效的列存储和向量化执行,我们的目标是在不依赖重型基础设施的情况下实现更快的结果。BemiDB通过Postgres协议进行通信,并且与Postgres语法兼容。 我们希望通过减少复杂性(自动数据源同步)、使用非专有数据格式(Iceberg开放表)以及消除供应商锁定(开源),来全面简化使用Postgres和其他数据源的公司的数据基础设施。我们非常期待听到大家的反馈!HN的朋友们有什么想法吗?