2作者: gorkemcetin16 天前原帖
如果你正在处理大型语言模型(LLM)的训练数据(就像我经常做的那样),你会知道在不破坏数据集的情况下清除个人身份信息(PII)是多么棘手。我已经使用 MS Presidio 一段时间,并决定在其基础上构建一个用户界面。这是一个扫描和识别文本中敏感信息(例如姓名、电子邮件、地址等)的工具,能够处理图像以遮盖敏感内容,并处理结构化数据。 整个项目是用 TypeScript 和 Node.js 编写的,得到了 Claude Code 的大力支持 :) 目前还处于早期阶段,欢迎反馈和贡献。
5作者: otherayden16 天前原帖
这似乎是一个在当今流行讨论中不太被提及的话题,因为人工智能占据了很多话语权。我个人对此有一些看法,但我想知道你们是否对此有一些想法。
1作者: brovatten16 天前原帖
我注意到我接触的许多项目,其概述往往无法通过文件结构轻易解释。<p>我尝试使用Claude Code和Cursor进行提示,但对于中大型代码库的结果仍然不满意。<p>因此,四个月后,我建立了一个开源仓库(CodeBoarding),它分析你的代码流,并生成一个可以互动的代码库抽象概述。<p>为此,我使用LSP服务器提取代码流,以减少上下文,并将其分多个步骤提供给LLM(读取元数据、探索包、验证图表等)。<p>最终结果现在托管在网站上,你可以从那里找到这个仓库。非常期待听到大家的反馈,谢谢HN!
2作者: cxumol16 天前原帖
我对将私人数据发送到云端AI服务持谨慎态度,但本地模型并不总是足够强大。因此,我构建了PromptMask,这是一个开源的本地优先隐私层。 它使用一个可信的本地大型语言模型(通过Ollama、llama.cpp等)来拦截您的提示信息,防止其发送到像OpenAI这样的云服务。它会识别敏感数据,并用语义占位符替换这些数据。与其使用一个破坏上下文的通用[已编辑],不如创建一个像{“John Doe”: “${PERSON_1_NAME}”}这样的映射。 只有经过匿名处理的提示信息会被发送到云端。当响应返回时,PromptMask会使用这个映射来恢复您的原始数据,从而确保您的秘密不会离开您的设备。 在消费级硬件上,这种做法是可行的,因为本地模型的任务很小:它只输出一个秘密的JSON映射,而不是完整的文本重写。我的基准测试显示,即使是参数少于10亿的模型在这方面也很有效。 有两种方式可以将其集成到您的AI活动中: 1. 针对开发者的Python库:可以直接替代OpenAI SDK。使用`from promptmask import OpenAIMasked as OpenAI`。 2. 针对客户端应用的API网关:运行`promptmask-web`以获取一个本地反向代理端点(localhost:8000/v1/chat/completions),可以保护来自任何兼容OpenAI的应用的请求。 我很想听听您的反馈。 GitHub仓库: [https://github.com/cxumol/promptmask](https://github.com/cxumol/promptmask)(MIT许可证) 博客文章《如何不将您的秘密交给AI公司》,深入探讨“如何”和“为什么”: [https://xirtam.cxumol.com/promptmask-how-not-give-ai-secrets/](https://xirtam.cxumol.com/promptmask-how-not-give-ai-secrets/)