文图互生

添码座原创大约 4 分钟

虽然有一些图像生成应用很早就出现了，例如2015年谷歌发布DeepDream，同年出现的Neural Style Transfer，2016年出现的DCGAN，以及加州大学伯克利分校在2017年发布的Pix2Pix和CycleGAN等。

但目前影响力最大的却并不是这些先行者，而后起之秀Midjourney、Stable Diffusion和DALL·E。

实话说，有了Midjourney、Stable Diffusion，其实DALL·E可以无视了。

目前AI图文领域的主要应用模式

诸多的应用

文生图类的AI应用也像前面的文生文那样，有一大堆的产品。

常用文生图应用

这些应用有的可以做插画，有的可以移除背景、抠图，有的可以做无损放大、优化修复，而有的则专门用于电商的商品图生成。

插画类。

插画类文生图应用

移除背景、抠图类。

移除背景、抠图类文生图应用

无损放大、优化修复类。

无损放大、优化修复类文生图应用

商品图生成类。

商品图生成类文生图应用

作为老牌文生图应用，虽然Midjourney不像ChatGPT那样发布了众多的预训练模型，但从5.2开始，它也能做预训练了，只是效果未经验证。

这里是官方文档。

关于Midjourney的使用，在《AI提示词极简指北》部分已经有了说明。

Stable Diffusion

而Stable Diffusion则是借助Checkpoint、Lora、embedding、VAE等手段，可以自由地训练出自己想要的图像风格。

我本地安装的Stable Diffusion，文生图界面。

Stable Diffusion文生图过程

我本地安装的CheckPoint（为什么都是女生模型？因为现在能下载到的，且处理的比较好的基本上都是女生模型😢）。

选择不同的CheckPoint

我本地下载的Lora。

选择不同的Lora

各种Stable Diffusion资源。

CheckPoint

Lora

embedding

VAE

要使用DALL·E，就必须付费——暂时没那个需求😢，Stable Diffusion已经很好了😄。

ComfyUI

最近ComfyUI也比较火，通俗地说，ComfyUI是一个流程化的Stable Diffusion，因此，一切Stable Diffusion可以用的资源，它也都可以用，包括CheckPoint、Lora等。

这两个站点可以在线体验ComfyUI。

ComfyUI Web

ComfyUI Web的界面

eSheep ComfyUI

eSheep ComfyUI

当然，也可以通过下面两种方式搭建自己的ComfyUI服务。

下载ComfyUI源代码，然后在本地搭建，安装过程源代码中有详细说明；
如果机器性能满足不了要求，也可以租用AutoDL或OneThingAI这类AI服务器，在线搭建ComfyUI服务。

如果Stable Diffusion用得比较熟练的话，上手ComfyUI也不难，感兴趣的可以自己玩玩。

下面的几个站点可以下载更多的ComfyUI工作流。

这里有非常详细的在线入门教程。

图生文

在图生文领域，目前可用的应用还寥寥无几，使用最多的应该还是Midjourney。

上面右边图中红色方框中的内容，就是通过向Midjourney发送 /describe 命令后得到的。

另一款值得推荐的应用就是SceneXplain，它不仅可以实现图生文，而且也能实现视频生文。

它是一款国外应用，却可以通过微信登录。

上面就是上传图片到SceneXplain然后被解析成文本的过程。

生成图像的时候也可以选择不同的生成算法。将任务切换为算法即可选择。

选择不同的图生文算法

SceneXplain提供了几种不同的算法选择。Jelly、Bolt、Inception、Hearth和GPT4V。

图生图

图生图的方法目前不外乎Midjourney和Stable Diffusion。

Midjourney提供了专门的图片融合指令 /blend

Midjourney的图生图指令

下面是我本地安装的Stable Diffusion，切换到图生图界面。

Stable Diffusion的图生图界面

Midjourney目前可以通过多张图 + 提示词的方式实现图生图。
Stable Diffusion目前只能用单张图 + 提示词的方式生成新的图片，但可以实现局部重绘。

未来，文图互生的AI应用必将越来越多，也必将越来越精细，因为Midjourney和Stable Diffusion兄弟俩开了个好头！

感谢支持

更多内容，请移步《超级个体》。