
上周,一位业余爱好者在尝试新的 Flux AI 图像合成模型时发现,它在渲染经过定制训练的字体复制品方面出乎意料地出色。虽然更有效的显示计算机字体的方法已经存在了几十年,但这项新技术对于 AI 图像爱好者来说非常有用,因为 Flux 能够渲染准确的文本描述,而且用户现在可以直接将以自定义字体渲染的单词插入到 AI 图像生成中。
自 20 世纪 80 年代(研究领域为 1970 年代)以来,我们就拥有了准确生成自定义形状的平滑计算机渲染字体的技术,因此创建 AI 复制字体本身并不是什么大新闻。但新技术意味着你可以看到人工智能生成的图像中出现特定的字体,例如,逼真餐厅的黑板菜单或机器人狐狸拿着的印刷名片。
2022年,像Stable Diffusion这样的主流AI图像合成模型出现后不久,一些人开始想知道:如何将自己的产品、服装、角色或风格插入到AI生成的图像中?出现的一个答案是 LoRA(低秩适应),这是一种 2021 年发现的技术,允许用户通过经过定制训练的模块化插件来增强 AI 基础模型中的知识。
-
使用 Flux dev 渲染的Cyberpunk 2077 LoRA 示例。 -
使用 Flux dev 渲染的Cyberpunk 2077 LoRA 示例。 -
使用 Flux dev 渲染的Cyberpunk 2077 LoRA 示例。 -
使用 Flux dev 渲染的Cyberpunk 2077 LoRA 示例。
这些 LoRA(模块的名称)允许图像合成模型创建基础模型训练数据中最初未发现(或表示不佳)的新概念。在实践中,图像合成爱好者使用它们来渲染独特的风格(例如粉笔艺术中的所有内容)或主题(例如蜘蛛侠的详细图像)。每个 LoRA 都必须使用用户提供的示例进行专门训练。
在 Flux 出现之前,大多数 AI 图像生成器都不太擅长在场景中渲染准确的文本。如果您提示稳定扩散 1.5 渲染一个写着“奶酪”的标志,它会返回乱码。 OpenAI 去年发布的 DALL-E 3 是第一个能够很好地处理文本的主流模型。 Flux 有时仍然会在单词和字母方面犯错误,但它是迄今为止我们所见过的渲染“世界文本”(你可能会这么称呼它)的最有能力的 AI 模型。
由于 Flux 是一个可供下载和微调的开放模型,因此上个月是第一次训练 LoRA 字体可能有意义。这正是一位名叫瓦迪姆·费登科(Vadim Fedenko)的人工智能爱好者(截至发稿时他没有回应采访请求)最近发现的。 “结果给我留下了深刻的印象,”费登科在 Reddit 帖子中写道。 “Flux 可以识别字母在特定样式/字体中的外观,从而可以使用特定字体、字体等来训练 Loras。很快就会训练更多这样的字体。”
-
第一个 Flux 字体 LoRA Y2K 的示例。 -
Y2K LoRA 的一个例子。 -
Y2K LoRA 的一个例子。
在他的第一个实验中,Fedenko 选择了一种活泼的“Y2K”风格字体,让人想起 1990 年代末和 2000 年代初流行的字体,并于 8 月 20 日在 Civitai 平台上发布了最终的模型。两天后,一位名为“AggravatingScree7189”的 Civitai 用户发布了帖子第二种字体 LoRA,再现了与《赛博朋克 2077》视频游戏中的字体类似的字体。
一位名叫 Eggs-benedryl 的 Reddit 用户在回应 Fedenko 关于 Y2K 字体的帖子时写道:“文字太糟糕了,我从来没有想到你可以做到这一点。”另一位 Reddit 用户写道:“直到我放大了它,我才知道《千年虫》杂志是假的。”
是不是太过分了?

确实,使用经过深度训练的图像合成神经网络在简单的背景上渲染普通的旧字体可能有点矫枉过正。您可能不想在设计文档时使用此方法来替换 Adobe Illustrator。
“这看起来不错,但我们如何将字体的想法重新发明为 300MB LoRA,这有点有趣,”一位 Reddit 评论者在有关Cyberpunk 2077字体的帖子中写道。
生成式人工智能经常因其环境影响而受到批评,这对于大型云数据中心来说是一个合理的担忧。但我们发现 Flux 可以将这些字体插入到 AI 生成的场景中,同时以量化(尺寸减小)的形式在 RTX 3060 上本地运行(并且完整的开发模型可以在 RTX 3090 上运行)。这与在同一台电脑上玩视频游戏的耗电量类似。 LoRA 创建也是如此: Cyberpunk 2077字体的创建者在 3090 GPU 上花了三个小时训练 LoRA。
使用人工智能图像生成器还存在道德问题,例如如何在未经内容所有者同意的情况下对收集的数据进行训练。尽管这项技术在一些艺术家中存在分歧,但大量的人每天都在使用它,并通过 Reddit 等社交媒体平台在线分享结果,这导致了像这样的技术的新应用。
截至撰写本文时,只有两种自定义 Flux 字体 LoRA,但在我们撰写本文时,我们已经听说人们计划创建更多字体。虽然仍处于早期阶段,但如果人工智能图像合成在未来得到更广泛的部署,创建字体 LoRA 的技术可能会成为基础。拥有自己的图像合成模型的 Adobe 可能会关注这一点。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。