返回首页
最新
我对无法了解我的同事们编写的代码为何出现在代码库中感到沮丧,因此我开发了一个工具,用于在 Git 中对代理追踪进行版本管理。
我有些困惑,如果我们曾经登上月球并发现它有价值,为什么我们还没有再次登陆呢?当时我们用的计算能力还不及一部iPhone。如果我们没有发现任何有价值的东西,那为什么还要回去绕着它转呢?
我觉得有些事情就是不太合理。或许可以用一个过于简单的例子来说明。如果我今天去坎昆,结果很不喜欢那里,我可能不会再去了,更不用说只是回去开车绕着坎昆,而不实际踏足坎昆。
我真的很困惑。
如果你是一名软件工程师,你是如何从一个通才转变为在某个特定领域成为专家的?
考虑一个由N个组件和M个组件之间的配对连接构成的系统,存在无限的[组件,命令,...]序列用于一系列操作。一个组件显示数据,而命令显然是执行某个指令。
这里有没有人研究过使用代理选择基于用户意图的快乐路径进行测试?对此是否有相关文献?这似乎是一个成本、计算和意图优化的问题。
假设延迟是一个限制条件。
看起来这是一些人工智能研究人员可以参与讨论的内容。我有自己的看法,但想听听社区的想法。
TypeScript 的网络爬虫。运行在 Bun 上,默认使用 Playwright,同时支持 CDP 和 Lightpanda。
我希望获得反馈的部分是命令行界面(CLI)。它是为大型语言模型(LLMs)设计的,而不是为人类使用的。当通过管道输出时为 JSON 格式,feedstock 模式在运行时会抓取每一个参数,使用 --fields url,markdown 选项可以让你只提取所需的信息,从而避免抓取结果占用整个上下文窗口。
其他值得关注的部分:
- 首先尝试获取引擎。在启动浏览器之前,先尝试普通的 HTTP 请求,只有在页面需要 JavaScript 时才会升级。
- 深度抓取使用广度优先搜索(BFS)、深度优先搜索(DFS)、UCB1 强盗算法和专注于 Q 学习的爬虫。学习型爬虫似乎在大型文档网站上有帮助,但我还没有仔细测量过。
- 使用可访问性树快照而不是 HTML。体积小 3 到 10 倍,更容易输入到模型中。
- 缓存使用 bun:sqlite,支持 ETag、Last-Modified 和内容哈希。
- 版本 v0.5.0,遵循 Apache 2.0 许可证,包含 325 个测试。刚刚推送,所以星标数量就是目前的状态。
[https://github.com/tylergibbs1/feedstock](https://github.com/tylergibbs1/feedstock)
即使是潘多拉也曾怀有希望。