TrilightLabs - Think Different

当把XL训练的repeat提高到100以上

上一期文章分享了扁平插画女孩的LoRa-XL模型，训练的repeat扫描次数在10-20之间，这次我将他们的repeat提高到100-150，在同样的提示词下生成的效果如图：

masterpiece:(1.2),chahua_nvhai,,British girl,Exquisite facial details,long hair,1girl,illustration style,brown hair,wear blue dress,illustration, 5 fingers,8K,hud,Grand Budapest Hotel background,happy

头发的细节，脸部细节泛化能力都提升不少。如果你在模型训练的时候如果感觉效果没有提升，特别是XL模型训练，试试看将repeat扫描次数提高到100以上。

关于搭建lora-script训练工具的一点思考

这篇文章主要是面向设计师读者，对偏程序向的内在逻辑不太了解的人看的。我的实际工作中还会需要去解决工具依赖项安装，程序更新后的兼容性问题排查等等。所以针对lora-script的脚本训练工具安装遇到的问题总结如下：

1.善用.venv虚拟目录将依赖项进行隔离

很多入门用户都会优先使用sd-webui（秋枼）、comfyui（秋枼）这类整合包，安装简单，解压即用省去了很多时间。所以这类整合包都会将各自的python目录进行隔离，避免公用一个python，从而避免冲突。安装lora-script也是同样的，最好准备CHATGPT在旁边待命，可以针对随时的安装报错提供帮助。

克隆之后power shell运行install-cn.ps1文件，理论上过程中应该会很顺利安装完成，但经过我实际部署超过7台计算机，都不是特别的顺利。

一是主要是出在python版本不兼容，二是程序调用的python路径不正确，使用的是系统C盘的python

对于版本好解决，只需要卸载本机不正确的python版本，安装支持的版本即可。如果程序一旦调用的是非lora-script下的python，你所有的依赖项都会安装到C盘的python目录，所以安装好依赖项也是在C盘，lora-script也会无法正常拉起。为什么会出现调用其他分区的python目录呢？你在安装之前请先运行指令例如：cd D:\lora-scripts\venv\Scripts 激活虚拟目录。

如果没有激活虚拟目录就进行安装会导致第三方依赖项无法安装到正确的路径。

2.安装工具前cmd看看本机where python 安装在哪个目录

也遇到过将lora-script脚本克隆下来之后运行install-cn.ps1出现依赖项版本冲突问题。这时候就要细心观察他调用的是哪个路径下的python，如果调用的是在非Lora-script的目录下的python文件，就需要重新建立虚拟目录，重新安装依赖项。

未将python添加到path环境变量，这个问题出现的问题也挺多。特别是没有安装过python的系统，首次安装一般要勾选path添加到环境变量。但是也并不是100%成功，你需要手动检查是否都将他们添加进去了。下图第一行就是我的python文件路径，第二行是C盘的Python3.11版本的路径，第四行则是3.10版本。添加路径地址样例为：D:\ComfyUI_windows_portable_nvidia\python_embeded\ 代表这个目录下有python.exe可执行文件。

虽然作者已经在代码里面写的很清楚调用当前目录的python文件夹，但依然会出现调用错误的问题。

3.90%报错出在python依赖项错误

你可能认为假如我在A电脑已经安装好了脚本工具，我在B电脑就直接进行复制粘贴不就可以了？也行也不行。为什么？取决于他们的python版本是否一致，pip、git是否安装。没法保证每个系统下的依赖项都是一致的所以最好进行分别安装。

所以，当你面对一台陌生的计算机你应该先在cmd中问第一句；where python

最后，配合ChatGPT一起使用会让事情变得简单，报错出现应该将更多的信息提供给它分析问题。包括不限于项目地址，requirements.txt的版本要求，脚本的运行代码，python路径等等。

多抓鱼-是一个会做内容的二手商-深圳

在深圳·后海Kalo商场B1层，多抓鱼开了一个线下二手商品展，这让我一个逛商场从来不愿排队宁可不去的人耐心排队并还很好奇的打量这个品牌为何能取得如此成功。首先，我对多抓鱼的第一次接触是在2017年，那会租房空间不大，手里屯里很多旧书。而且这些事其实对我来说非常珍贵，翻开书就好像作者在和我娓娓道来那些他/她所看到的世界。对此，如果是直接将书当废品处理，没几个钱不说，很多书还舍不得。

严格质检而建立起的信任

当时了解了他们的公众号，书籍的回收流程非常严格，在字里行间能感受到对用户的尊重，是一个非常用心做产品的公司。比如他们将回收来的书籍进行质检（确认是否为盗版），细致到通过使用放大镜来查看字迹印刷油墨的品质（还受到出版社的专业认可）。回收的书籍会进行二次消毒，再进行塑封包装，之后等待下一个读者打开。

每本书都会被认真对待，从用户端能够清晰的知道书籍的品相，销售的价格，以及谁购买了你的书籍（如果要是开放社交功能那就更好了，哈哈哈哈哈，发现彼此的阅读喜好，甚至还能找到相同话题）。

每回收一本书你都能获得相应的鱼币，这个鱼币能够有优先获得购买书籍的权限，也可购买周边。周边无形中也提升了品牌的传播。而遇到想买的书籍，也会在多抓鱼试试手气，万一真有呢，省钱又环保。

你觉得多抓鱼的用户都有哪些特点呢？

OpenAI推出ChatGPT的搜索功能将改变用户获取信息的方式

我是一个游戏行业的从业者，只是在工作业务上享受到了AI工具带来的便捷和机会。自认为阅历不多，对这块可能暂时不具备深度凝练和总结。从收到OpenAI在推特发布的更新来看，这将会是一场用户获取新讯息的革新。23年和同事在聊，大家都在聊OpenAI，当时细细思考很是震惊，我认为它一定会是替代谷歌的，并且在搜索结果上获取的信息更加完整，准确，干净。而在今天发布这个消息显然技术已经成熟，他将造福更多的人。

技术创新和不断深化

ChatGPT的搜索功能基于GPT-4o模型构建，能够快速提供最新信息，并附上相关的网页链接，这标志着AI技术在搜索领域的应用正在不断深化。

抢夺谷歌的市场份额

不仅仅是和谷歌在技术上的正面硬刚，同时还会抢夺谷歌的市场份额，当前谷歌在信息检索上获取方式上还是属于被动型的接受，用户顶多看到1-2页结果后面的数据就压根没人看。同时，对于信息提供方（网站、移动网页、公司、产品等等）则不需要考虑SEO优化，关键词排名等等，而更应该注重内容的真实性，以及是否真正对用户有价值。

用户体验与交互

ChatGPT的搜索功能属于连续对话方式，并且上下文关联，从获取到信息用户进行理解还可以进行提问，矫正信息的真实性，这无疑提供能加灵活自由的沟通方式。信息检索方式的改变，也更直观体验更舒适。

与数据商合作是用户习惯的功能补充

提供天气、股票、体育、新闻和地图等类别添加最新信息和新的视觉设计，是与谷歌的一场功能的平替竞争，这类信息是用户日常使用频率最高的，无疑是让人更加惊喜的功能。

我用637张游戏图标训练XL模型-免费提供下载研究-禁止直接商用

这件事是我一直想干的。在游戏项目中，基本上用的还是1.5版本的lora模型，工作量紧张，有时没法去做模型的迭代优化。游戏实际项目中去运用最大的痛点还是形状没法很好的控制。Dreambooth+lora也是我一直想去做的事情。

XL模型的特性分辨率更大，支持的文本语言更多，自然对图标的形状辨识度会更高。这是我结合实际观察来说的一个猜测。但训练XL模型门槛也随之拉高，需要更高的显卡支持。所以，最近趁着有时间赶紧尝试一版本，我会在文中随时更新动态。

这次我使用的是A800-80G显存，素材637张，使用XL默认的checkpoint，训练轮数60，每6轮保存一个XL-lora模型，其他参数默认，共403800步。

期待接下来的跑图效果。

关于云端算力的研究

实际上我研究了一遍 AWS 的EC2算力服务，如果是48G的显卡粗略估计在上百美元左右。官方博客也分享了实际如何去搭建这样一套环境和流程。详细可访问这个地址：https://aws.amazon.com/cn/blogs/china/stable-diffusion-comfyui-deployment-solution-based-on-amazon-eks/

后来找到一个专注AIGC的云端算力服务星鸾云，他们提供A800-80G显存的算力，目前估计是新上线价格也还不错6元/小时左右，对我来说是一个比较合适的产品服务。但是总体后台操作上可能还存在一些不足。感兴趣的可以前去体验。

跑图多久

实际这张卡跑图就跑了三天，如果全部训练完成得需要6天时间，我会去训练过程中不断拿产出模型去做测试，所以达到标准就直接终止了。最终训练费用在400元左右。

跑图效果

投入的训练集素材是512分辨率，担心质量不佳。实际效果确实真好，因为XL的升级优化感觉对文本的识别能力提高不少，输入的文本内容效果基本都能满足精度（但同样也存在随机性变化问题、造型问题）。

它不仅仅是习得训练集中已有的素材效果，输入其他内容，比如人、动物等它同样能将风格、上色方式给迁移过去。

生成的素材造型、色彩，都提高不少，例如能够捕捉到提示词 smile 在宝箱图标结合上的合理性，这在SD1.5版本上是会逊色很多的。

以上跑图来自comfyui环境下。不足的地方就是细节造型不准，颜色偏暗。在sd-webui上跑图开启高清修复效果会更好。

下载地址访问哩布：https://www.liblib.art/modelinfo/adeaf829f9a04f238dfff370bc1df8f4?from=personal_page&versionUuid=5fbcdd4ca04c4a4091f4ae462dfe4e31

请搭配 base_xl 官方原版模型使用，lora权重请控制在0.6-0.8之间，触发词： Trilightlabs style, 后续接图标属性例如：gem,stone,drink,ring,shoes,flower,treasure chest

这个图标的特点几乎涵盖日常需要使用的游戏图标种类，可以尝试各种属性提示词，此lora模型风格主要偏写实日韩二次元游戏画面风格。

关于SD-FLUX-AIGC的模型训练工具的使用感受

今天来说说我所接触的这四个训练工具，目前来说稳定性比较好，受到广大群众认可的训练工具。其核心都是采用的kohya-ss底层。我之所以推荐这四个其实基本上考虑到易用性，对新手是友好的。

硬件要求：最起码16G的显存起步，如果没有最好是用线上训练平台来做。时间效率会高很多。kohya本身是本地部署的，包括秋叶训练工具。如果要从易用性上考虑还是推荐用秋叶训练包，界面友好、文本解释性的内容直观，能够消除新手入门的很多疑惑。

kohya也是有GUI界面的，使用的是gradio的框架，和stable diffusion界面一致。但是，如果对训练原理不太懂其实并不推荐，这会让你因为各种参数，报错给折腾的无从下手。

kohya-ss 地址：https://github.com/kohya-ss/sd-scripts/tree/sd3

秋叶训练 整合包项目地址 https://github.com/Akegarasu/lora-scripts

Civitai 模型训练平台地址：https://civitai.com/models/train

算力需要收费，5美元5000个Buzz（也就是显卡算力），相比liblib稍微便宜一点昂。个人比较推荐的训练平台。支持多个任务同时进行，支持最新flux模型lora训练。价格比较便宜，数量集最大支持1000的限制。

交互设计上采用分阶段提交的方式，各个参数说明都挺详细，训练过程如下：

实际训练体验

如果你是仅训练单一风格素材（例如单一人像风格，单一属性元素的图标等等）并且训练集的数量较少可以选择这个服务。否则你的训练集过多会因为总步数的限制导致训练效果不佳。后台给你的总步数是10000步，超出这个数系统不会执行。

liblib 训练地址：https://www.liblib.art/pretrain

他们的界面简化了训练参数，如果需要专业参数可以点开设置。

哩布哩布的话是生成会员+训练会员制度，如果你是有训练需求的话只需要购买训练会员就可以了，一般训练300训练集以上要充值199元，59元是一个基础的模型训练仅支持200张训练集。

实际效果如何可以访问这个地址：Flux-日韩二次元写实游戏图标模型

基于flux1模型训练的lora，实际使用请看详细说明。

扒取-“超自然AI换脸教程”-来自哔哩哔哩

看了这个作者的演示，效果确实不错，但是我细查了下发现是培训机构的。所以想要获取他的流程必须要三连加微信才能获取到，而且一时半会还没发给我。本着提升自己对comfyui的熟悉度，我照猫画虎的1：1给还原了过来。

原视频地址：https://www.bilibili.com/video/BV1eXsheNEon?p=2&vd_source=b6c524e3d38fe874f7e2148d9ca2d1bc

为什么叫扒取又打引号呢？根据视频截图保存本地推演出来的，但实际效果是否那么好呢？有待验证。

下面分享下我在配置这个工作流遇到的问题：

按作者要求安装一下插件节点（我列的不全，这个视频作者提到的插件都要安装昂）：

1.mixlab（我在这报错多）

2.ipadapter（这个已安装的略过）

3.comfyroll（原图放大节点，改善加载图像不够高清的问题也可以理解为高清修复）

4.instantID（这个已安装的略过，记得需要下载ipadapter.bin模型）

总体流程搭建简单，主要分为三部分，首先通过输入图像（不清晰的直接comfyroll放大节点）来到ReActor换脸，这时候效果可能不佳，接着引入instantID节点，之后再通过ipadapter进行迁移风格，得到最终效果。（使用基础模型为XL）

说下mixlab报错，这个插件需要将版本切换到4月月份的版本，同时instantID也要切换到4月27的版本，否则两者会出现兼容性问题。尤其是mixlab最新版本会导入错误。切换版本解决。

工作流分享：https://trilightlab.com/wp-content/uploads/2024/09/segment-ipadapter-anything换脸.zip

演示环节：

我要将刘亦菲的脸型嫁接到中间这个美女脸上，得到图3刘亦菲换脸的最终效果

这里又2点要注意：

controlnet加载器的模型选择instantid/diffusion_pytorch_model.sfetensors模型不然效果很差

K采样器的参数：

继续演示：

将图1的女孩脸型替换到图2上，得到图3的效果。

结论：总体来说符合我的预期，品质也很高，并且相比flxu上期分享的流程速度快，精准度和稳定性要高一些。

Flxu换脸工作流的使用体验

这个换脸流程逻辑简单说一下，使用的是Flux-GGUF的基础模型，依靠提示词生成一个人体姿势，然后再上传一张将要替换的脸部人像，通过face swap加facedetailer两个插件进行交替叠加效果，从而获得真实的换脸操作。有个缺点，目前还没法找到头部以下解决清晰度又能够做到保真的效果。