3作者: kalil03212 个月前原帖
我创建了一个实时互动地图,展示了全球顶尖人工智能公司招聘的地点。这个数据是我为一次黑客马拉松项目收集的。许多申请跟踪系统(ATS)提供商都有公开的API,可以通过公司的slug获取开放职位。最困难的部分是找到这些公司。我尝试了Firecrawl,但每个提供商返回的公司数量大约只有200个,这对我来说不够。然后,我试用了SERPAPI,但费用较高。最终,我使用了SearXNG按ATS类型发现公司并获取他们的职位发布。这产生了一个超过20万个职位的大数据集(我只使用了其中的一部分,因为处理全部数据会耗费太多时间)。几天前,我决定将这些数据可视化,因为我不知道该如何处理它,并希望让更多人受益。 我发现自己总是想问一些简单的问题,比如“仅显示欧洲的研究职位”或“筛选远程软件工程师职位”(而且我有很多免费的AI积分),所以我添加了一个小型的LLM接口,将自然语言转换为地图上的筛选条件。 这张地图是使用Vite + React + Mapbox构建的。 实时演示:<a href="https:&#x2F;&#x2F;map.stapply.ai" rel="nofollow">https:&#x2F;&#x2F;map.stapply.ai</a> GitHub(数据):<a href="https:&#x2F;&#x2F;github.com&#x2F;stapply-ai&#x2F;jobs" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;stapply-ai&#x2F;jobs</a> 欢迎反馈、改进建议或贡献。
16作者: coffeecoders2 个月前原帖
我开发了一款工具,可以揭示每次您访问网站时,浏览器自动暴露的数据。<p>GitHub: <a href="https://github.com/neberej/exposedbydefault" rel="nofollow">https://github.com/neberej/exposedbydefault</a><p>演示: <a href="https://neberej.github.io/exposedbydefault/" rel="nofollow">https://neberej.github.io/exposedbydefault/</a><p>注意:没有数据被发送到任何地方。一切都在您的浏览器中运行。
1作者: witnessme2 个月前原帖
ResilientLLM 是一个简约但强大的 LLM 集成层,旨在通过智能处理故障和速率限制,确保在多个 LLM 提供商之间实现可靠、无缝的交互。<p>作为一个 node.js 包提供,您可以通过 `npm i resilient-llm` 安装,其他语言的支持即将推出。只需几行代码,您就可以避免编写和维护处理以下挑战的代码:<p>1. 不稳定的网络条件<p>2. 间歇性错误和不一致的错误处理<p>3. 不可预测的 LLM API 速率限制错误<p>有关动机和功能的更多信息,请参阅 README。期待听到您的想法。如果您喜欢这个项目,请给仓库加星并分享您的功能请求。
1作者: aliansari222 个月前原帖
你好,HN, 我是PDFClear的创始人([https://www.pdfclear.com](https://www.pdfclear.com))。这是一个完全在浏览器中运行的PDF工具套件(合并、拆分、压缩等)。我之所以开发这个工具,是因为我厌倦了搜索“合并PDF”,却总是进入需要我将敏感的银行对账单或合同上传到未知服务器的网站。我希望有一个工具,文件永远不会离开我的设备。 技术栈: 这个应用是用React和Vite构建的,但重负载的处理是通过WebAssembly和Web Workers完成的,以保持UI线程的响应性。 - PDF操作:我使用pdf-lib进行标准操作(合并、拆分、旋转)。 - 压缩与加密:对于更复杂的任务,如压缩流或处理加密/解密,我将QPDF编译为WebAssembly(qpdf-wasm)。 - OCR:扫描的文档使用Tesseract.js在客户端处理。 本地AI(新功能): 我最近添加了语义搜索和摘要功能,而不依赖于OpenAI/Anthropic的API。 - 它使用Transformers.js直接在浏览器中运行ONNX模型。 - 搜索:使用不同的模型(包括nomic-ai/nomic-embed-text-v1.5和Xenova/GIST-small-Embedding-v0)进行嵌入。它将文本分块,将向量存储在IndexedDB中(通过idb-keyval),并在本地执行余弦相似度计算。 - 摘要:使用onnx-community/text_summarization-ONNX(量化版)在Web Worker中运行。 隐私: 由于一切都在客户端运行,没有文档会上传到我的服务器。你可以通过检查网络标签来验证这一点。一旦应用加载(并且AI模型被缓存),它就可以完全离线工作。 我非常希望能听到你们对本地AI模型性能的反馈,特别是在旧设备上的表现。
2作者: johnsillings3 个月前原帖
嘿,HN!<p>为了好玩,我制作了一个互动的 Hacker News 模拟器。<p>你可以提交文本帖子和链接,就像真实的 HN 一样。但在 HN 模拟器上,所有评论都是由大型语言模型生成的,并且生成速度非常快。<p>我认为最好的使用方式是提交一个文本帖子或一个可用 curl 的 URL,地址在这里:<a href="https://news.ysimulator.run/submit" rel="nofollow">https://news.ysimulator.run/submit</a>。你无需注册账户即可发布。<p>当你这样做时,系统会从评论者原型、情绪和形式的库中生成各种提示。AI 评论者会实际回应你的文本帖子和/或提交的链接。<p>我真的希望它能感觉真实,我认为这个项目在这方面做得相当不错。在开发过程中,我常常搞混哪个标签是“真实”的 HN,哪个是模拟器,甚至不小心向 HN 提交了一些无关的内容。(抱歉,dang 和团队——我确实在事后进行了清理)。<p>这个应用程序是用 Node + Express + Postgres 构建的,所有推理都在 Replicate 上运行。<p>说到 Replicate,他们慷慨地给我提供了一些免费的推理积分——所以向那里的团队致敬。<p>这个应用程序最有技术趣味的部分是评论的工作原理。你可以在这里了解更多信息,并探索所有可用的原型、情绪和形式,这些都被组合成提示:<a href="https://news.ysimulator.run/comments.html" rel="nofollow">https://news.ysimulator.run/comments.html</a><p>我希望你们玩得和我制作时一样开心!
161作者: bilsbie3 个月前原帖
<a href="https://xcancel.com/karpathy/status/1993010584175141038" rel="nofollow">https://xcancel.com/karpathy/status/1993010584175141038</a>
7作者: leo_e3 个月前原帖
我们遇到了经典的分布式系统瓶颈,我在寻找一些经验教训或“最不糟糕”的实践。 背景:我们维护一个分布式有状态引擎(类似搜索/分析)。架构是标准的:控制平面(协调器)将数据段分配给工作节点。工作负载涉及对大数据集的重度使用 mmap 和延迟加载。 事件:我们发生了级联故障,协调器陷入循环,导致对特定节点的 DDOS 攻击。 信号:协调器发现节点 A 的行数(逻辑计数)显著低于集群平均水平,标记节点 A 为“未充分利用”。 行动:协调器尝试重新平衡/将新数据段加载到节点 A 上。 现实:节点 A 实际上使用了 197GB 的内存(接近 OOM)。其上的数据非常宽(宽行,大块数据),因此逻辑行数较低,但物理占用却非常大。 循环:节点 A 拒绝加载(或超时)。协调器忽略了背压,再次看到低行数,立即重试。 核心问题:我们试图为负载均衡器编写一个“上帝方程”。我们从行数开始,但失败了。我们查看了磁盘使用情况,但由于延迟加载,这与内存并没有直接关联。 现在我们在关注 mmap。由于操作系统管理页面缓存,应用层的 RSS 噪声很大,并不能严格反映“所需”内存与“可回收”缓存的关系。 问题:试图将每个资源变量(CPU、IOPS、RSS、磁盘、逻辑计数)枚举到一个单一的评分函数中,感觉像是一个 NP 难题的陷阱。 在内存使用不透明/动态的系统中,您如何处理资源分配? 愚蠢的协调器,聪明的节点:我们是否应该让协调器根据磁盘空间盲目操作,100% 依赖节点根据本地压力返回硬性 429 请求过多? 成本估算:我们是否尝试为每个数据段构建一个合成的“成本模型”(例如,预测的内存占用),并基于信用进行调度,而忽略实际的操作系统指标? 控制平面解耦:将存储平衡(磁盘)与查询平衡(内存)分开? 感觉我们在重新发明轮子。感谢提供相关论文或类似架构的事后分析。
1作者: robot_jackie3 个月前原帖
Corvus Robotics 正在扩展有史以来最大的自主物流数据采集车队。如果你对含铅焊料、实际收入、电子表格或模糊不清的事物过敏——这个职位不适合你。更多“纸箱”,少一些“海鸥箱”。 我们的飞行仓库无人机车队将在2026年增长五倍,我正在寻找一位在旧金山湾区的通才前创始人或制造领导者,他们希望在美国和海外大规模扩展制造运营。 我们需要一个有硬件产品经验(不仅限于SaaS)、沟通清晰且具有无穷创造力的人。流利的普通话和在 EVT/DVT/PVT 阶段领导产品的经验将是额外的加分项。 如果你对此感兴趣,请私信我,或发送一封简短的电子邮件至 a@我们的网址,内容包括: - 你为什么感兴趣 - 你曾经从中恢复的最大制造失误是什么 - 你的目标薪资 PS - 请分享我们的LinkedIn帖子! [https://www.linkedin.com/posts/mhkabirr_at-corvus-robotics-were-scaling-the-largest-activity-7397916377002500096-WiLm](https://www.linkedin.com/posts/mhkabirr_at-corvus-robotics-were-scaling-the-largest-activity-7397916377002500096-WiLm) 谢谢, Jackie