1作者: yxchen19943 个月前原帖
展示 HN:NailGenie - 通过 AI 进行对话式的指甲设计编辑 我创建了 NailGenie([https://nailgenie.org](https://nailgenie.org)),旨在解决指甲设计中的“这不是我想要的”问题。它是一个 AI 平台,允许用户通过简单的对话逐步编辑指甲艺术,而不是静态生成。 技术挑战 核心挑战在于构建一个能够理解特定视觉领域上下文和增量编辑命令的系统。大多数生成式 AI 解决方案专注于一次性生成,而不是关于同一图像的持续对话。 我们通过以下方式解决了这个问题: 1. 在包含配对编辑指令的指甲设计数据集上微调 Gemini 2. 构建一个有状态的上下文管理系统,以跟踪编辑历史 3. 创建一个视觉差异算法,在编辑过程中保留指甲边界 4. 实现一个处理模糊编辑请求的指令解析器 后端在我们的测试集中达到了约 98% 的指令理解率,平均编辑时间约为 2.7 秒。 技术栈 - 前端:使用 TypeScript 和 React 服务器组件的 Next.js 应用路由 - UI:Shadcn/UI + TailwindCSS(我们选择这些以便快速迭代) - 后端:使用 Supabase 进行身份验证、存储编辑历史和管理用户积分 - 部署:使用 Vercel 边缘函数实现低延迟的 API 响应 - AI:定制调优的 Gemini 模型,配备多阶段处理管道 开发挑战与经验教训 最大的挑战包括: 1. 指令模糊性:“让它更粉色”对不同用户意味着不同的事情。我们实施了一个澄清系统,以细化模糊请求。 2. 边缘检测:早期版本在指甲边界上表现不佳。我们构建了一个专门的分割模型,以确保编辑仅影响指甲区域。 3. 性能:初始处理每次编辑约需 8 秒。我们通过并行化管道和缓存中间表示进行了优化,将时间缩短了约 65%。 4. 冷启动:边缘函数的冷启动影响了用户体验。我们实施了后台预热和优化模型加载。 为什么以及接下来要做什么 我并不是指甲专家,但我注意到我的女朋友在去美容院之前花费数小时浏览示例,当结果与她的想法不符时感到沮丧。创建一个弥合这种沟通差距的系统的挑战变得技术上非常吸引人。 当前指标: - 约 450 名用户在封闭测试中 - 平均会话:每个设计 8.3 次编辑 - 82% 的完成率(用户达到最终保存的设计) 未来计划 - 下个月开源我们的指令解析逻辑 - 为美甲沙龙添加 API 访问以便直接集成 - 实现实时协作编辑 亲自试试 NailGenie 已上线并提供免费起始积分。我非常欢迎任何反馈,特别是在以下方面: - 指令解析准确性 - 您遇到的性能瓶颈 - UI/UX 痛点 [https://nailgenie.org](https://nailgenie.org)