返回首页
最新
大家好!<p>我大部分时间都在TinyFish调试和玩弄非常强大的搜索引擎(这真是太棒了)。最近,我对利用搜索引擎递归构建数据集的想法产生了浓厚的兴趣。<p>我一直在玩Exa的WebSets产品,发现它主要集中在潜在客户开发上,并且创建的数据集存在很多缺失数据。<p>因此,我们构建了一个完全开源的项目,可以在任何主题上构建和更新数据集。<p>到目前为止,我生成的数据集包括:
“星巴克在亚马逊上销售的所有产品,包括价格和库存状态”,
“加利福尼亚州的所有主题公园,包括票价”,
“所有当前招聘工程职位的YC公司及其招聘页面链接”。<p><pre><code> 希望大家试用一下,并分享你们的想法、评价和反馈。谢谢!</code></pre>
背景:在一家大型科技公司担任高级软件工程师。<p>我所在组织中高级工程师的目标之一是识别并实施人工智能项目。<p>我已经熟悉并积极使用MCP、AI代理、插件等。虽然这些工具很有用,但我感觉公司里大多数人都在做类似的事情。<p>我想知道贵组织是否开发或采用了任何人工智能驱动的工具、工作流程或用例,这些工具和用例带来了显著的商业价值,并且可能被其他组织所借鉴。
嗨,HN,我是s2.dev的创始人之一。RePlaya([链接](https://github.com/s2-streamstore/replaya))是一个自托管的浏览器会话重放工具,使用了rrweb([链接](https://github.com/rrweb-io/rrweb))。
我想到,为每个会话提供一个持久化流将是构建此类工具的一个更整洁的架构基础。作为一个独特的功能,它还使实时跟踪变得简单,因为播放器可以从记录器正在追加的同一流中读取数据。
另一种架构可能是一个数据摄取火hose,然后进行索引,这会带来相关的复杂性和延迟。你需要将多个数据系统串联在一起,比如消息队列、元数据数据库和Blob存储和/或OLAP数据库。
在这里,唯一的依赖是S2,它有一个可以自托管的开源版本,叫做s2-lite([链接](https://news.ycombinator.com/item?id=46708055))。
它的工作原理如下:
- 每个浏览器会话一个S2流
- 大型rrweb事件(如完整快照)跨多个二进制S2记录进行框架处理,并在读取时重新组装
- 活跃会话通过S2读取会话进行跟踪,并通过SSE桥接到浏览器
- 会话列表依赖于流名称编码反向时间戳,因为S2返回的是字典序排列的列表
- 依赖于围栏令牌,以防止已停止的会话被迟到的记录器再次写入
- 保留和垃圾回收通过S2流配置处理,因此不需要后台作业
期待听到大家对这个工具或每会话一个流模型的看法!