1作者: platypii大约 1 个月前原帖
我在Apache邮件列表上问过这个问题,但还没有找到好的解决方案。想知道是否有人对如何解决这个问题有一些想法? 我的问题是:我在S3中有数GB的LLM对话日志,格式为parquet。我想为每一行添加注释(LLM作为评判者的评分),理想情况下不想修改原始文本数据。 对于给定的数据集,我想添加一列新列。这似乎是Iceberg的一个完美用例。Iceberg确实允许你演变表的模式,包括添加列。但是,你只能添加带有默认值的列。如果我想用注释填充这一列,Iceberg却要求我重写每一行。因此,尽管它基于parquet这种列式存储格式,我却需要重写整个源文本数据(数GB的数据),仅仅是为了添加约1MB的注释。这感觉极其低效。 我考虑过将这一列单独存储在一个表中,然后进行连接。这确实可行,但连接操作很麻烦,而且我怀疑查询引擎对“按行号连接”的操作优化得不好。 我一直在探索使用parquet的一些鲜为人知的特性,比如file_path字段,将列数据存储在外部文件中。但实际上没有任何parquet客户端支持这一点。 我快没有想法了,如何高效地处理这些数据。情况糟糕到我考虑如果找不到解决方案就自己构建一个表格式。有没有人有建议?
1作者: hotelsw大约 1 个月前原帖
我一直在为Cortex-M(以及更广泛的32位ARM)开发一个轻量级的运行时加载器,能够在运行时从SD卡、闪存或通用存储中加载和重定位ELF模块。它并不是Linux意义上的动态链接器,但确实执行符号解析和针对主机定义的ABI进行重定位。 这个项目的目标是实现可扩展的固件平台,而无需重新烧录或将所有内容静态链接到主映像中。我分享这个项目是希望它能对其他人有所帮助,同时也希望能获得建设性的反馈。