3作者: PhilYeh2 个月前原帖
我分享了一个完全离线的RAG(检索增强生成)架构,旨在解决工业环境中的一个关键问题:数据隐私和重复的API成本。 我们每天处理敏感的专有数据表和原理图,因此基于云的LLM(大语言模型)如ChatGPT不符合合规要求。 解决方案:一个容器化架构,确保数据永远不会离开本地网络。 技术栈: LLM:Llama 3(通过Ollama) 向量数据库:ChromaDB 部署:Docker Compose(一键设置) 优势:零API成本,无安全风险,快速的本地性能。 代码和架构可在此处获取: [https://github.com/PhilYeh1212/Local-AI-Knowledge-Base-Docker-Llama3](https://github.com/PhilYeh1212/Local-AI-Knowledge-Base-Docker-Llama3) 欢迎就GPU直通设置或文档导入流程提问。
2作者: ljubomir2 个月前原帖
我构建了一个简单的命令行工具,以解决我经常遇到的问题:在任何给定时间,通过 OpenAI、Anthropic、Google 和 xAI 的 API,具体有哪些模型名称是可用的? 这些 API 本身提供了相关信息,但我厌倦了查看文档或编写一次性脚本。现在我只需运行: ``` $ llm-models -p Anthropic ``` 就可以获取当前的可用模型列表,且名称易于阅读。 安装方法: ``` macOS: brew tap ljbuturovic/tap && brew install llm-models Linux: pipx install llm-models Windows: pip install llm-models ``` 该工具在 Claude Code 的帮助下构建。它直接查询每个提供商的 API,因此您获得的是实时可用性,而不是过时的文档。 欢迎反馈,如果有兴趣,我也很乐意添加更多的提供商!
7作者: LoMoGan2 个月前原帖
当前的人工智能聊天助手面临一个根本性挑战:在长对话中的上下文管理。虽然现有的大型语言模型(LLM)应用通过多个独立的对话来绕过上下文限制,但一个真正类人化的AI助手应该能够维持一个连贯的对话线程,因此高效的上下文管理至关重要。尽管现代的LLM具有更长的上下文能力,但它们仍然受到长上下文问题的困扰(例如,上下文衰退问题)——随着上下文的延长,推理能力会下降。 为了缓解上下文衰退问题,已经发明了基于记忆的系统,然而,基于记忆的表示本质上是有损的,必然会丢失原始对话中的信息。原则上,没有任何一种有损表示可以在所有下游任务中都完美适用。这导致了定义灵活的上下文管理系统的两个关键要求: 1. 保留原始数据:一个可以在必要时检索原始对话的索引系统。 2. 多分辨率访问:能够按需检索不同细节层次的信息。 ChatIndex 是一个上下文管理系统,使得LLM能够通过层次树状索引和智能推理检索,有效地导航和利用长对话历史。 开源代码库: [https://github.com/VectifyAI/ChatIndex](https://github.com/VectifyAI/ChatIndex)