28作者: winwang4 天前原帖
大家好!我是Win,ParaQuery的创始人(<a href="https://paraquery.com">https://paraquery.com</a>),我们提供一个完全托管的、GPU加速的Spark + SQL解决方案。我们在易用性上与BigQuery相当(甚至更易用),同时在成本效益和性能上显著更优。 这里有一个简短的演示视频,展示了ParaQuery(与BigQuery的对比)在一个简单的ETL任务上的表现:<a href="https://www.youtube.com/watch?v=uu379YnccGU" rel="nofollow">https://www.youtube.com/watch?v=uu379YnccGU</a> 众所周知,GPU在许多SQL和数据框任务中表现出色,至少在研究人员和像NVIDIA这样的GPU公司中是这样。以至于在2018年,NVIDIA推出了RAPIDS计划和Spark-RAPIDS插件(<a href="https://github.com/NVIDIA/spark-rapids">https://github.com/NVIDIA/spark-rapids</a>)。我之所以发现这一点,是因为当时我正在尝试制作一个基于CUDA的λ演算解释器……这是我未能实现的几个想法之一,哈哈。 在一些工程师中似乎存在一种看法,认为GPU仅适用于人工智能、图形处理,也许还包括图像处理(也许!有人甚至告诉我,他们认为GPU不适合图像处理!)。但实际上,GPU在传统数据处理上同样表现良好! 从高层次来看,大数据处理是一种高吞吐量、大规模并行的工作负载。GPU是一种专门为此设计的硬件,具有高度可编程性,并且(现在)在云端高度可用!更棒的是,GPU的<i>内存</i>是针对带宽而非原始延迟进行优化的,这使得它们在吞吐能力上优于CPU。通过简单地使用云成本计算器几分钟,就可以清楚地看到,即使在主要云平台上,GPU也是具有成本效益的。 老实说,我原以为使用GPU进行SQL处理现在应该已经普及,但事实并非如此。因此,在一年多前,我开始着手实际部署一个基于云的GPU数据平台(即Spark-RAPIDS),这受到了一位朋友的朋友(的朋友)的启发,他在创业公司中对BigQuery的成本表示担忧。在完成概念验证和意向书后……嗯,什么也没发生!即使在半年后也是如此。但随后,发生了一些神奇的事情:他们的云信用额度用完了! 现在,他们通过使用ParaQuery节省了超过60%的BigQuery账单,同时速度也提高了2倍——完全不需要数据迁移(得益于Spark的GCS连接器)。顺便说一下,我不确定其他人的经历,但……我们离IO瓶颈相当远(这让我与许多我交谈过的工程师感到惊讶)。 我认为高吞吐量计算的未来在于在高吞吐量硬件上进行计算。如果你也这么认为,或者你面临数据扩展的挑战,可以在这里注册:<a href="https://paraquery.com/waitlist">https://paraquery.com/waitlist</a>。抱歉需要排队,但我们还没有准备好提供自助服务体验——这将需要大量的工程和硬件成本。但我们会做到的,请继续关注! 感谢阅读!你们在处理巨大的ETL/处理负载时有什么经验?成本或性能是否是个问题?你对GPU加速(GPGPU)有什么看法?你认为GPU只是贵吗?我很想在这里聊聊技术!
4作者: ignalex4 天前原帖
大家好。在这个周末,我开发了一个利用人工智能寻找联系人的工具。以下是背景故事。我和我的合作伙伴正在创建一个农业科技初创公司——我们正在为农业机械构建远程信息处理系统。我们的销售大部分来自冷联系:你搜索联系人,给他们发消息,打电话,达成交易等等。 我们还在进行独立创业,因为农业科技发展缓慢,有时也比较无聊。某个时候,我们厌倦了手动从互联网上收集联系人,因此我们开发了一个AI工具来解决这个问题。结果这个工具非常有用,我们决定与大家分享。 如果这里有使用类似工具的人,我们非常希望能听到你们的反馈——这个工具对你们来说效果如何?如果你感兴趣,我可以提供一些免费的使用积分作为反馈的交换。
1作者: surrTurr4 天前原帖
嗨,HN!<p>我搭建了这个<i>小型</i>MCP服务器,以防止我的AI代理生成不存在的Helm值。<p>这个MCP服务器允许你的副驾驶助手:<p>1. 检索Artifact Hub上Helm图表的一般信息<br> 2. 从Artifact Hub上的Helm图表中检索values.yaml<p>如果你需要更多工具,欢迎提交PR,告诉我你想要看到的工具 :)<p>链接:<a href="https:&#x2F;&#x2F;github.com&#x2F;AlexW00&#x2F;artifacthub-mcp">https:&#x2F;&#x2F;github.com&#x2F;AlexW00&#x2F;artifacthub-mcp</a>
1作者: manibaur4 天前原帖
我正在通过MCP将各种内部工具/数据存储(例如Postgres、值班工具等)连接到Cursor。<p>我面临的一个反复出现的问题是如何通过Cursor管理和执行员工级别的访问控制列表(ACL),以便与外部管理/执行的方式一致。<p>比如说,一名员工对包含支持票据的Postgres表有有限的读取权限,我希望他们在通过Cursor访问该表时也能保持相同的访问级别。<p>看起来在公司范围内运行远程MCP服务器实例是一个开始。有没有人正在解决AI驱动的IDE领域中的用户管理和权限问题?