嗨,HN,Xorq 的 Hussain 和 Dan 在这里。
经过多年的努力,我们终于决定解决计算资源在笔记本中有效但在生产环境中失效的问题。数据有像 Iceberg 和 Delta 这样的标准,但计算仍然一团糟——被困在笔记本中,团队间重复劳动,或者嵌入到自定义的 Airflow DAG 中。我们认为 Xorq 是 Apache Iceberg 的缺失对应物,但针对计算。
在过去的一年里,我们构建了 Xorq,一个*计算目录*,帮助团队*重用、发布和观察*跨引擎的转换、特征、模型和管道。
Xorq 的构建基础包括:
- *Arrow Flight* (`do_exchange`) 用于高速数据传输
- *Ibis* 用于跨引擎表达树,序列化为 YAML
- 一个可移植的 UDF 引擎,将管道编译为 SQL 或 Python
- `uv` 使 Python 环境完全可重现
Xorq 的特点包括:
- 类 pandas 的声明式转换,基于 Ibis
- 多引擎执行(例如,DuckDB、Snowflake)
- 作为可移植 Flight 端点的 UDF
- 通过 flight_udxf 操作符提供可服务的转换
- 内置缓存和血缘追踪
- 可比较的 YAML 工件,非常适合 CI/CD
Xorq 的应用案例:
自从我们上次重大版本发布以来,看到第一个 Xorq 的应用案例在实际中出现令人兴奋。所有这些都具备*Python 的简洁性和 SQL 的规模性能*。
- 特征存储(<a href="https://www.xorq.dev/blog/featurestore-to-featurehouse" rel="nofollow">https://www.xorq.dev/blog/featurestore-to-featurehouse</a>)
- 语义层(例如 <a href="https://github.com/boringdata/boring-semantic-layer">https://github.com/boringdata/boring-semantic-layer</a>)
- MCP + ML 集成(<a href="https://docs.xorq.dev/vignettes/mcp_flight_server" rel="nofollow">https://docs.xorq.dev/vignettes/mcp_flight_server</a>)
我们是开源的,学习速度很快。希望能收到关于哪些功能有用或缺失的反馈。感谢您提前尝试!
查看 Xorq CLI 工具的演示:<a href="https://asciinema.org/a/730484" rel="nofollow">https://asciinema.org/a/730484</a>
---
开始使用
- Github: <a href="https://github.com/xorq-labs/xorq">https://github.com/xorq-labs/xorq</a>
- Xorq 文档: <a href="https://docs.xorq.dev/" rel="nofollow">https://docs.xorq.dev/</a>
---
抢先体验 - Xorq 计算目录 UI 控制台:
查看这个互动的 Claude 演示,展示如何可视化 Xorq 计算目录,以加速 AI 计算的组合、重用和故障排除:<a href="https://claude.ai/public/artifacts/d2f00d2a-a3f9-4032-884e-d22f620a0ccf?fullscreen=true" rel="nofollow">https://claude.ai/public/artifacts/d2f00d2a-a3f9-4032-884e-d...</a>
返回首页
最新
ELF注入器允许您将任意大小的可重定位代码块“注入”到ELF可执行文件中。这些代码块将在可执行文件的原始入口点运行之前执行。
该项目中包含了示例代码块以及详细的操作教程,说明其工作原理。
它结合了C语言和汇编语言,目前在32位ARM架构上运行,但很容易移植到其他架构。
... 鉴于近期在该领域的提取行为,您认为会很快看到<i>广告</i>吗?
嗨,HN!<p>我在社交媒体上看到几次关于选举真相联盟的提及后,决定构建这个项目。在阅读了他们的分析后,我脑海中挥之不去的是我所看到的问题。<p>因此,我下载了数据,从头开始重建他们的完整分析。<p>他们的关键错误是对大数法则的简单误解:在大样本中收集的值会收敛到样本分布中的真实概率。<p>(不要与非常大数法则混淆:后者指出,在足够的时间内,不太可能的事情会发生。这也让我感到困惑。)<p>技术细节:<p>- 没有构建系统,这完全是手工制作的HTML、CSS和纯JavaScript。
- 初步分析使用Python,仅使用标准库。
- 可视化使用Observable Plot和D3.js创建。
- 模拟完全在客户端运行。
- 网页使用Scrollama构建,以实现动画和行为控制。
- 投票历史可视化处理约60万条个别选票记录,实时进行,并进行了一些缓存,以防止浏览器卡顿。
- 在Windsurf的帮助下完成。<p>有趣的挑战:<p>- 在没有后端的情况下,使可视化性能良好,这通过在滚动时进行一些预加载以及一定程度的缓存来实现,以便可视化能够尽可能共享资源。
- Windsurf有时会失控。在初步预处理阶段,它曾经将一个绝对巨大的JSON数据块写入磁盘,文件大到在写入时直接导致我的整个电脑崩溃。然后读取时,显然不能直接读取,而是我的Opus 4驱动的编码代理决定从头构建一个流式JSON解析器。它成功了,我得到了所需的数据,所以我没有回去让它更合理,但那真是愚蠢。<p>这个项目实际上是从模拟开始的,只花了一天的时间,后来才扩展到重新分析和可视化。数据到手后,可视化的工作在2-3天内完成。<p>如果我再做一次,我可能会尝试找到某种构建系统或静态网站生成器来组合最终结果。一旦页面变得很长,即使对于Windsurf来说也相当笨重。非常简短的对话可能会使Sonnet 4的速率限制被淹没,因为单个文件中包含了太多内容。
我制作了一个开源的、没有广告的YouTube摘要网站,利用tldw [1] Python库快速生成YouTube视频摘要。<p>演讲越长,创作者获得的广告收入就越多。但我们并不总有40分钟的时间来听某人慢慢阐述一个观点。<p>这个网站没有广告、无需登录,并且是100%免费的。你可以在这里找到源代码 [2]。<p>[1] <a href="https://pypi.org/project/tldw/" rel="nofollow">https://pypi.org/project/tldw/</a>
[2] <a href="https://github.com/DavidZirinsky/tldw-site">https://github.com/DavidZirinsky/tldw-site</a>
在Railway(我在这里工作),我们将于8月6日举办一次黑客马拉松活动。<p>无论是全栈应用程序还是无头内容管理系统,构建一个模板供他人使用。<p>我们看到有人部署传统应用程序或基础设施来托管营销博客网站(我们的博客托管在Railway上)。<p>根据项目的复杂性或内容深度,最高可获得1000美元的奖金。