1作者: AmbroseBierce大约 2 个月前原帖
NotSoAAA 是一个用于在 Steam 上查找评价较少但积极的游戏的网站(默认显示评价少于 42 条的游戏,但用户可以选择最多 100 条),这为那些可能值得更好评价的游戏提供了第二次机会!用户可以悬停在任何游戏上以观看该游戏的预告片。 一开始,用户可以通过选择他们喜欢的热门游戏来筛选游戏,从而寻找类似的游戏,或者他们可以继续滚动以查看所有游戏。 值得注意的是,在滚动了几个游戏后,会出现另一个部分,允许用户按标签进行筛选,用户可以选择多个标签,或者他们可以选择忽略它,继续根据现有的筛选条件滚动查看游戏。 最初我尝试从 Steam 抓取所有游戏,但在几百个请求后,他们会限制这种尝试,因此我继续寻找替代方案,并在 Kaggle 上找到一个非常不错的数据集,所以我使用了这个数据集,你可以通过 `fronkongames/steam-games-dataset` 找到它。 该网站使用原生 JavaScript,后端使用 PHP 处理模板,使用 Python 进行所有的抓取和脚本编写。 欢迎任何反馈或问题。 一些更技术性的见解(AI 生成): - 混合过滤管道结合了基于 JSON 的数据集和会话级排除,以保持每位访客的推荐内容新鲜。 - 使用一个可重用的 `<video>` 元素,由 dash.js/Hls.js 管理,以最小化在多个卡片上预览预告片时的内存消耗。 - 实现动态批处理以及滚动限制的无限加载,结合服务器端会话跟踪,以避免在请求之间重复游戏。 - 在 PHP 和前端滑块之间共享过滤状态,包括触发服务器重建的自定义评价/价格范围,通过可中止的获取调用。 - 使用 Python 脚本规范化抓取的 Steam 数据,添加派生元数据(标签、类似游戏、应用 ID),并在发布前积极去重条目。 - 通过 ffmpeg 裁剪 MPD 流生成视频合辑,叠加游戏标题,并自动标记已处理的条目以防止重复使用。 - 自适应用户体验在标签和“类似游戏”发现模式之间切换,当精选推荐处于活动状态时,自动禁用标签过滤器。
1作者: platypii大约 2 个月前原帖
我在Apache邮件列表上问过这个问题,但还没有找到好的解决方案。想知道是否有人对如何解决这个问题有一些想法? 我的问题是:我在S3中有数GB的LLM对话日志,格式为parquet。我想为每一行添加注释(LLM作为评判者的评分),理想情况下不想修改原始文本数据。 对于给定的数据集,我想添加一列新列。这似乎是Iceberg的一个完美用例。Iceberg确实允许你演变表的模式,包括添加列。但是,你只能添加带有默认值的列。如果我想用注释填充这一列,Iceberg却要求我重写每一行。因此,尽管它基于parquet这种列式存储格式,我却需要重写整个源文本数据(数GB的数据),仅仅是为了添加约1MB的注释。这感觉极其低效。 我考虑过将这一列单独存储在一个表中,然后进行连接。这确实可行,但连接操作很麻烦,而且我怀疑查询引擎对“按行号连接”的操作优化得不好。 我一直在探索使用parquet的一些鲜为人知的特性,比如file_path字段,将列数据存储在外部文件中。但实际上没有任何parquet客户端支持这一点。 我快没有想法了,如何高效地处理这些数据。情况糟糕到我考虑如果找不到解决方案就自己构建一个表格式。有没有人有建议?