返回首页
最新
我们对基于向量的RAG系统感到沮丧,因为它们依赖于语义相似性,往往在处理长篇、特定领域的文档时表现不佳。在这些情况下,特定领域的术语往往具有语义相似性,这使得检索用户所需的确切内容变得困难。同时,有效地融入专家知识或用户偏好也很具挑战性。因此,我们开始探索一种更以推理为驱动的RAG方法。受到AlphaGo中的树搜索算法的启发,我们提出了一种基于推理的RAG系统,利用树搜索来指导检索。
我们开源了一个关键组件:PageIndex,这是一个层次化索引系统,将大型文档(如财务报告、监管文件或教科书)转化为优化用于基于推理的RAG的语义树。
一些亮点包括:
- 层次结构:将冗长的PDF文档组织成适合大语言模型(LLM)的树状结构——就像一个智能目录。
- 精确引用:每个节点包含摘要和确切的物理页码。
- 自然分段:节点与文档章节对齐,保留上下文——没有任意的分块。
我们已经在财务文档分析中使用PageIndex与基于推理的RAG,并且与基于向量的系统相比,检索准确性有了显著提高。
非常期待任何反馈——尤其是对基于推理的RAG的看法,或者PageIndex可能应用的想法!
我记得在HN首页上有一篇关于一个失败的创业项目的旧而受欢迎的帖子。这个项目是关于生物科学的提炼。结论是,科学提炼没有钱可赚。<p>我想不起来任何关键词来找到它。如果你记得它的标题,请帮我一下。<p>谢谢!
GitHub 问题: https://github.com/sindresorhus/camelcase/issues/114
<p>有没有人遇到的 npm 中断问题超出了提到的 camelcase 包?
我正在制作一个名为 Relay 的 3D 建模程序,以下是 Rust 代码的基本概述,包括名称保留。接下来,我将添加带有基本窗口选项的界面。
```rust
// 不可编辑的代码
let a = window; // a 代表窗口
let b = menus; // b 将是稍后侧边的菜单
// 我会在从手机转到电脑后编译实际代码。
// 短路布尔逻辑
println!("qwertkeyf=wywhynwnewwordlessinsteadrswlmnophtyfj");
println!("b, later");
```
该代码的功能基于您对打印行的解码。提供的关键行中,“less instead” 是两个独立的部分,表示不使用加号或减号符号,并且基于一侧。请随意在 Rust 中使用此内容,但此代码受版权保护。
你好!<p>我非常喜欢Anki,已经使用它学习中文多年,但我总是懒惰,难以克服“动力障碍”,坐下来创建一个卡片组。<p>最近,我在YouTube上观看了很多关于人工智能的内容,花了三天时间为Andrej Karpathy的“深入探讨大型语言模型”视频创建了一个卡片组。这实在不太实际——所以我在asimpleai.com上制作了一个简单的YouTube到Anki的转换器。<p>这个工具还有些粗糙……但我希望它最终能成为对社区有用的东西。欢迎反馈和建议!<p>祝好!