10作者: pigcat26 天前原帖
这是我们的新文本到图像模型:一个9.3亿参数的单流扩散变换器,完全从零开始训练。<p>我们在可控性方面进行了大量的研究,使用结构化的JSON提示,具备强大的文本渲染能力,通过边界框指导实现空间感知,以及对色彩调色板的控制。<p>它在我们测试过的所有开放权重模型中,文本渲染效果最佳,NF4量化检查点可以在单个24GB的GPU上运行。<p>有关更多技术细节和示例,请查看我们的博客文章:<a href="https://ideogram.ai/blog/ideogram-4.0" rel="nofollow">https://ideogram.ai/blog/ideogram-4.0</a><p>我们很乐意回答任何问题 :)