CtrlK

分而治之实例：记一次约稿

图床图片显示

目前已将图片托管在渐构网站上，如果图片无法正常显示，请移步到[飞书文档](https://dblba3c5ab.feishu.cn/wiki/CmfwwmMbLiCmnSkg0Necz65Kncd?from=from_copylink)。
如果你知道国内常驻不跑路、条款限制较少、付费标准不高的图床，请告诉我。

分而治之

将复杂问题拆分成多个简单问题，通过求解这些简单问题，进而求解复杂问题的思想。
分而治之的方法通常会有以下步骤：

拆分：将规模较大的原问题，拆分成规模较小、相互独立、具有相同或相似性质的子问题。
解决：尝试解决这些子问题，若子问题难以解决，则将其拆分规模更小的子问题并尝试解决。
合并：合并这些子问题的解，尝试解决原问题。一般情况下，合并方式与拆分方式相反。

快递主机分而治之

大学毕业后，我需要将电脑主机快递回家，但是在快递途中，主机很可能会因为碰撞而损坏。
当时我想到一个办法：

将电脑主机拆分成主板、CPU、散热器、显卡、内存条、硬盘、电源、机箱。
将 CPU、显卡和硬盘放到行李里带回家；其他电脑配件则用气泡膜包裹好，将它们快递回家。
回到家后，将电脑配件重新组装成电脑主机。

电池成本分而治之

在特斯拉早期研发阶段，马斯克面临电池高成本问题，当时电池报价为 600 美元 / 千瓦时。
马斯克对电池成本进行调研：

将电池成本拆分成原料成本、人工成本、技术成本、生产成本等。
发现原料成本只需 80 美元 / 千瓦，推断出电池技术是电池高成本的主要因素。
研发新的电池技术，成功将特斯拉电池成本控制在 155 美元 / 千瓦时。

殖民政策分而治之

一战结束后，大英帝国为了保护其在巴勒斯坦的利益，采用以下政策：

将巴勒斯坦人拆分成阿拉伯人和犹太人。
打压阿拉伯人的民族解放运动，支持犹太人的复国运动。
控制双方冲突规模和频率，利用冲突来削弱双方力量，从而维护大英帝国的利益。

游戏王分而治之

我想补完《游戏王》系列，但是每一季大概又 150 集，我无法在短时间内看完一季。
最后我还是看完了。每天中午和晚上休息的时候，我都会选出两集来观看，用了四个月的时间。

大树守卫分而治之

在《艾尔登法环》中，如何运用分而治之思想，打败大树守卫？

一次约稿

约稿问题

过渡算法思想

在[《学习观》第 4 节](https://www.modevol.com/episode/cl4zh80o48f2101o3e2iv849s)中，于博解释了分而治之的强大之处。早在大学时期，我就已经接触分而治之算法思想，但当时我只是拿来应付期末考试。直到 2023 年 10 月中旬，我成功运用分而治之解决一次约稿。

偶然机缘巧合

那天，我在 AI 绘画 lora 交流群看到有人发布一条消息：“帮助他的朋友生成图像，有偿”。刚好我比较闲，于是我和他的朋友搭上线，得知对方想要用 AI 生成一张小说封面，主题是“圣骑士与魅魔，其中，魅魔是圣骑士的信仰”。

实践作为挑战

我是一名 AI 模型训练师，不是画师。只是在发布 AI 绘画模型时，我需要提供 AI 参考图，因此积累了一些精修 AI 图像的经验，但我从未涉足过多人 AI 图像的创作。我认为这是一次有趣、有难度的挑战，虽然会有一些风险，但我还是接下这份委托。

问题 SD模型问题

目前主流的 AI 绘画工具有三个：Stable Diffusion、Midjourney、DALL·E 3（GPT-4）。
我主要使用 Stable Diffusion 创作图像，但是二次元风格 Stable Diffusion v1.5 模型存在两个问题。

问题第一个问题 SD模型问题

模型所使用的数据集，其女性图像远多于男性图像，单人图像多于多人图像，使得模型难以生成男女图像和多人图像。
这里我使用“Counterfeit-V3.0”模型和以下提示词，进行文生图演示：

(masterpiece, best quality), 1girl, (1boy), white background

如图所示，模型生成的 X/Y 图像中，很难看到男性图像和多人图像。![1-1.文生图测试1.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/axphfw7othhrpf66bijcysu7.jpg)

问题第二个问题 SD模型问题

模型使用[ Danbooru 图站的标签](https://danbooru.donmai.us/wiki_pages/howto%3Atag_checklist)作为提示词，而非自然语言。
这种方式虽然降低了画面描述的难度，但也降低了关系描述的准确性，特别是多人图像的描述，例如：

一名女孩有蓝色长头发和蓝眼睛，嘴唇微开，一只手放在胸口上；另一名女孩有黑色短头发，紧闭嘴巴，双手自然放在两侧；她们都穿着白色有领衬衫。

将其转成 Danbooru 图站的标签：

(masterpiece, best quality), standing, upper body, looking at viewer, (2girls), long hair, blue hair, blue eyes, parted lips, hand on own chest, short hair, black hair, grey eyes, closed mouth, arms at sides, collared shirt, white shirt, white background

如图所示，模型没有正确处理两个女孩的外貌和动作。![1-2.文生图测试2.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/ufownog8yiy70jbne04rerfe.jpg)

问题约稿问题

甲方想要用 AI 生成一张小说封面，主题是“圣骑士与魅魔，其中，魅魔是圣骑士的信仰”。
然而，甲方没有提供魅魔和圣骑士的具体形象，我不知道如何体现他们的信仰关系。
另外，这是一张男女图像，我无法使用 Stable Diffusion 直接生成图像。

分析问题

拆分原问题分而治之

我没有办法直接解决原问题，因此我需要将其拆分成两个子问题：

子问题1：我需要知道魅魔和圣骑士的具体形象，生成能体现他们信仰关系的初稿。
子问题2：我需要根据初稿，生成甲方可以接受的成品。

我还是没有办法直接解决子问题，因此我需要继续将每个子问题，拆分成规模更小的子问题：

子问题1：我需要知道魅魔和圣骑士的具体形象，生成能体现他们信仰关系的初稿。
- 子问题 1-1：我需要知道魅魔的具体形象。
- 子问题 1-2：我需要知道圣骑士的具体形象。
- 子问题 1-3：我需要知道如何体现他们的信仰关系。
子问题2：我需要根据初稿，生成甲方可以接受的成品。
- 子问题 2-1：我需要修正已确认的魅魔图像。
- 子问题 2-2：我需要修正已确认的圣骑士图像。
- 子问题 2-3：我需要修正已确定的魅魔和圣骑士图像。

解决子问题分而治之

对于这 6 个子问题，我有办法直接解决：

子问题 1-1 的解：生成魅魔图像，根据甲方反馈进行调整。
子问题 1-2 的解：生成圣骑士图像，根据甲方反馈进行调整。
子问题 1-3 的解：寻找或生成能够体现信仰关系的参考图像。
子问题 2-1 的解：对已确认的魅魔图像进行高清化处理，修正细节错误。
子问题 2-2 的解：对已确认的圣骑士图像进行高清化处理，修正细节错误。
子问题 2-3 的解：合成得到高清化的魅魔与骑士图像，并做整体修正。

合并子问题的解分而治之

合并子问题 1-1、1-2、1-3 的解，得到子问题 1 的解：

分别生成魅魔和圣骑士图像，根据甲方反馈进行调整。
寻找或生成能够体现信仰关系的参考图像，让甲方进行选择。
根据甲方选择的参考图像，重新生成魅魔图像和圣骑士图像。
根据甲方选择的参考图像，合成得到初稿，让甲方进行确认。

合并子问题 2-1、2-2、2-3 的解，得到子问题 2 的解：

对已确认的魅魔图像和圣骑士图像，分别进行高清化处理，修正细节错误。
参考初稿，合成得到半成品，也就是高清化的魅魔与骑士图像。
为半成品添加背景图像，并根据甲方意见进行整体调整。得到成品，交付给甲方。

合并子问题 1 和子问题 2 的解，得到原问题的解：

分别生成魅魔和圣骑士图像，根据甲方反馈进行调整。
寻找或生成能够体现信仰关系的参考图像，让甲方进行选择。
根据甲方选择的参考图像，重新生成魅魔图像和圣骑士图像。
根据甲方选择的参考图像，合成得到初稿，让甲方进行确认。
甲方确认后，对魅魔图像和圣骑士图像，分别进行高清化处理，修正细节错误。
参考初稿，合成得到半成品，也就是高清化的魅魔与骑士图像。
为半成品添加背景图像，并根据甲方意见进行整体调整。得到成品，交付给甲方。

解决子问题1

确定形象

概念抽象层级

由于「魅魔」和「圣骑士」的抽象层级比较高，因此我需要先生成一些魅魔图像和圣骑士图像，来帮助双方具象化这些概念。之后我再根据甲方的反馈对具体形象进行调整。

概念上下概念

「魅魔」的上层概念有「恶魔」，下层概念有「西式魅魔」和「日式魅魔」。
「圣骑士」的上层概念有「圣骑士」，下层概念有「条顿骑士」、「圣殿骑士」和「医院骑士」。

后面确认对方想要的是「日式女魅魔」和「中世纪骑士」。

魅魔形象解决子问题

在 Stable Diffusion 文生图界面，我使用 GhostMix 模型和关键词`demon girl`默认生成几张魅魔图像，然后将它们发送给甲方。![2-1 魅魔形象1.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/bk0xrsfqtdfbqdag0orh18tb.jpg)

甲方要求增加衣物，以便通过国内审核。我思考了一下，然后在 B 站搜索“魅魔”，查看相关的视频封面。确定能通过 B 站审核的魅魔有虚拟主播 veibae 和《东方Project》的小恶魔，我将它们的图像发送给甲方。![2-2 魅魔形象2.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/v27no3bd45399n0hsh8up92l.jpg)

甲方选择 veibae 的形象作为参考，我根据 veibae 的图像反推提示词：

(masterpiece, best quality), upper body, looking at viewer, demon girl, long hair, white hair, demon horns, black horn, red eyes, closed mouth, medium breasts, sleeveless dress, (white dress), hands up, demon wings, (white background)

随后，我生成几张新的魅魔图像，甲方选择衣物覆盖率较高的图像：![2-3 魅魔形象3.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/x3pxnoy7dnb3ezw8cgp9wx89.jpg)

骑士形象解决子问题

同样，我使用 GhostMix 模型和关键词`knight`默认生成几张骑士图像，并将它们发送给甲方。![2-4 骑士形象1.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/en1fssbucc3qhflhk44oyaid.jpg)

甲方选择戴头盔的骑士图像。我思考了一下，然后将《哥布林杀手》男主角的图像发送给甲方。得到甲方的确认后，我调整了提示词：

(masterpiece, best quality), upper body, looking to the side, looking at viewer, 1boy, knight, helmet, armored dress, white background

我参考《哥布林杀手》男主角形象，生成新的骑士图像：![2-5 骑士形象2.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/p18qci3yyl0yzbkfhof5ob9u.jpg)

确定关系

过渡二者关系

现在我知道了魅魔和骑士的具体形象，但是我不知道如何体现他们的信仰关系。甲方给我的回复是“类似《JOJO的奇妙冒险》里的替身关系”，但并未明确具体的表现方式。因此，我决定用 GPT-4 生成一些参考图像，以便双方进行讨论和确认。

参考图像解决子问题

由于 OpenAI 的使用政策，我不能直接使用 GPT-4 生成“魅魔”相关图像，于是我使用“恶魔女孩”作为代替，并输入以下提示词：

这一张网络小说的封面，图像使用《JOJO的奇妙冒险》封面风格，图像主题为一名圣骑士。
圣骑士信仰为恶魔女孩，恶魔女孩在圣骑士的背后，她类似替身使者。
恶魔女孩有白色长头发和红色眼睛，穿着无袖黑白连衣裙，背后有恶魔翅膀和心形尾巴。

GPT-4 告诉我《JOJO的奇妙冒险》受版权保护，它无法直接使用这类风格，而是用动态且强烈风格生成图像：![3-1 参考图像1.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/u2u63d224g3k53cgvcs15v3g.jpg)

我提取了 GPT-4 所使用的提示词，并进行了一些调整：

Drawing in a dynamic pose of a Holy Knight, he is a human, with emphasis on his protective armor. The girl is a demon. she almost ethereal with long white hair, red eyes, pointed ears, black horns, appears as his guardian spirit, her black and white dress flowing, and devilish wings and tail making her presence known.

让 GPT-4 按照提示词继续生成：![3-2 参考图像2.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/gnld237p74fmn7xozhs2jwl6.jpg)![3-3 参考图像3.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/u3fccom84i388n6ikm15sk8m.jpg)

我让 GPT-4 扩写提示词，添加背景描述进去：

在一个扩展到地平线的荒凉平原上，一座古老的石制城堡屹立于远方，其高耸的尖塔穿透天空，形成一道引人注目的轮廓。城堡的旗帜在轻风中飘扬，上面刻画着一把璀璨的剑和一本发光的魔法书，标志着这片土地上剑与魔法的统治。
天空呈现出深紫色至深蓝色的渐变，星星开始在天空中亮起，月光为大地披上一层银白色的面纱。不远处，一片森林的树梢在微风中轻轻摇曳，发出沙沙的声音。
在这个平原上，圣骑士与恶魔女孩并肩站立。圣骑士的银色铠甲在月光下闪闪发光，他的目光坚定地望向前方，仿佛有一场即将到来的战斗。而恶魔女孩则轻轻地靠在他的背上，她的红眼仿佛探究着夜空中的每一个秘密，她的存在不仅仅是为了引诱，更是圣骑士内心深处的信仰与守护。

让 GPT-4 按照新的提示词生成：![3-4 参考图像4.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/wg4ppnur3268qrrcqzggjnbs.jpg)

合成图像

汇总构图思路

在 GPT-4 的帮助下，我有了构图思路：

骑士与魅魔各自面朝两侧，但是彼此紧挨在一起。
骑士在左侧前方，魅魔在右侧后方，表现出守护关系。
魅魔位置比骑士位置高一些，表示主从关系。

合成初稿解决子问题

接着，我对魅魔的提示词进行调整，将`upper body, hands up`替换成`cowboy shot, from below, looking to the side, arms at side`，让魅魔侧脸注视下方的观察者。
我生成了 10 张魅魔图像，并从中选出最符合要求的魅魔图像，与骑士图像一起导入到 Photoshop 中，合成得到以下图像：

![4-1 合成图像1.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/h937go9e266xqpc6jtncdvuv.jpg)

解决确认构图

我将初稿发送给甲方，甲方确认构图没有问题。我便开始着手解决下一个子问题。
这里提醒一下，到这里双方就可以确定稿费了，根据稿费来确定你的工作量。

求解子问题2

高清图像解决子问题

基于初稿，我对已确定的魅魔图像和骑士图像进行高清化处理。
我切换到 Stable Diffusion 文生图界面，保持魅魔的提示词不变，启用高分辨率修正：

(masterpiece, best quality), cowboy shot, from side, from below, looking back, looking at viewer, 1girl, long hair, floating hair, white hair, sheep horns, black horns, red eyes, parted lips, large breasts, sleeveless dress, white dress, two-tone dress, arms at side, white background

我生成了 20 张高清图像，从中选出 8 张，供甲方选择：![4-2 高清化1.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/zhkap2zvtqkuu4a3wn0rqu9r.jpg)

接着我切换到 Stable Diffusion 图生图界面，保持骑士的提示词不变，设置重绘幅度为 0.5 - 0.75：

(masterpiece, best quality), upper body, looking to the side, looking at viewer, 1boy, knight, helmet, armored dress, arms at side, white background

我生成了 15 张不同重绘幅度的图像，供甲方选择：![4-3 高清化2.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/s4hzprdmqqif28zo6l4mi29r.jpg)

根据甲方的选择，我将新的魅魔图像和骑士图像导入到 Photoshop 中，合成得到新的初稿：![4-4 合成图像2.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/h4g6lobwoyc4ovwktvtb5852.jpg)

过渡修复工具

接下来，我使用数位板和 Photoshop 对细节错误进行“标记”，引导 Stable Diffusion 生成类似元素。

修正细节解决子问题

首先，我对新的魅魔图像进行观察，发现需要修正魅魔的角、头发、眼睛和嘴唇部分。
我涂抹这些部分，并在上面画上几笔，然后用较低的重绘幅度进行图生图：![4-5 修正图像1.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/uv2a51mjzf0gy7ofdlrp5izo.jpg)

接着，我对新的骑士图像进行观察，我发现需要修正骑士的臂甲、胸甲和裙甲部分。
同样，我使用相同的手法进行处理：![4-6 修正图像2.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/pdqs09xhzinh100wu76yo2po.jpg)

最后，我将修正后的魅魔图像和骑士图像导入到 Photoshop 中，合成得到半成品：![5-1 成品1.png](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/l55zf7nul2jz0uymskssuifl.png)

添加背景

我通常会在休息时段玩一些游戏，当时我在玩《刺客信条：大革命》，游戏里面有很多教堂场景。我受到启发，使用 Stable Diffusion 生成教堂图像，并将其导入到 Photoshop 中，与半成品进行合成。
然后我切换到 Stable Diffusion 图生图界面，编写新的提示词：

(masterpiece, best quality), middle ages, depth of field, looking back, looking at viewer, long hair, white hair, sheep horns, black horns, pointy ears, red eyes, parted lips, large breasts, sleeveless dress, black dress, arms at side, looking ahead, knight, helmet, armored dress, indoors, church, windows, light particles

接着，我用较低的重绘幅度对新的半成品进行图生图，并对整体细节部分进行修正：![4-7 修正图像3.jpg](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/zvdrbp94oko88m1zillovwum.jpg)

甲方对最终成品表示满意，那么这次约稿算是完成了。![5-1 成品2.png](https://cdn.modevol.com/user/cl45b90au25jk01r453ik1d56/images/elsmd9fx5bvp9ck0vss72gaz.png)

后记关于实践

原本这篇文章只是作为个人项目实践备忘，我写到一半时，听到有人想要谈谈实践。我就花了点时间重构这篇文章，来谈谈关于分而治之的实践，如何将世界模型落实到现实。

其实分而治之的实践早就开始了。从你加入社群，查看学习日程表，决定开始拆分练习那一天起，你就开始了分而治之的实践：

拆分：将文章拆分成不同的学习材料和信息。
解决：获取信息，并通过学习材料建构出概念和知识。
合并：通过信息来消除你对某事的不确定性，通过模型预测来生成新信息，从而理解文章。

从去年 6 月份开始，我通过长达两个月的拆分练习，让我的大脑渐构出「分而治之」模型，最终我借助「分而治之」模型，成功解决约稿问题。

这便是《渐构 - 世界模型》与其他知识付费不同之处，它要求你寻找新的例子来验证它，要求你通过实践来掌握它，作为回报，你能够借助世界模型来渐构新的模型，来帮助更好地解决问题。

分而治之实例：记一次约稿

创建于：2023-11-25

随记

讨论

媒体