当把XL训练的repeat提高到100以上

上一期文章分享了扁平插画女孩的LoRa-XL模型,训练的repeat扫描次数在10-20之间,这次我将他们的repeat提高到100-150,在同样的提示词下生成的效果如图:

masterpiece:(1.2),chahua_nvhai,,British girl,Exquisite facial details,long hair,1girl,illustration style,brown hair,wear blue dress,illustration, 5 fingers,8K,hud,Grand Budapest Hotel background,happy

头发的细节,脸部细节泛化能力都提升不少。如果你在模型训练的时候如果感觉效果没有提升,特别是XL模型训练,试试看将repeat扫描次数提高到100以上。

分享扁平插画女孩风格LoRa模型

该模型基于XL base 1.0底模微调的LoRa模型,画风特点是扁平简笔插画风格,训练素材104张。

30张写实正则化训练素材,74张简笔插画风格素材。目的是解决造型太单一,使其符合真实人的站姿,但个人认为效果并不是很明显。

这模型我主要想用来接入krita使用,所以对文生图的细节、色彩、构图、手指问题不做追求。需要的去libulibu自取:https://www.liblib.art/userpage/5bc8f4248c1b4ce1a45bd206f806803a/publish

触发词:chahua_nvhai

提示词样例:

masterpiece:(1.2),chahua_nvhai,fullbody,British girl,Exquisite facial details,long hair,1girl,illustration style,brown hair,wear blue dress,illustration, 5 fingers,8K,hud,Grand Budapest Hotel background,happy

效果如下:

关于搭建lora-script训练工具的一点思考

这篇文章主要是面向设计师读者,对偏程序向的内在逻辑不太了解的人看的。我的实际工作中还会需要去解决工具依赖项安装,程序更新后的兼容性问题排查等等。所以针对lora-script的脚本训练工具安装遇到的问题总结如下:

1.善用.venv虚拟目录将依赖项进行隔离

很多入门用户都会优先使用sd-webui(秋枼)、comfyui(秋枼)这类整合包,安装简单,解压即用省去了很多时间。所以这类整合包都会将各自的python目录进行隔离,避免公用一个python,从而避免冲突。安装lora-script也是同样的,最好准备CHATGPT在旁边待命,可以针对随时的安装报错提供帮助。

克隆之后power shell运行install-cn.ps1文件,理论上过程中应该会很顺利安装完成,但经过我实际部署超过7台计算机,都不是特别的顺利。

一是主要是出在python版本不兼容,二是程序调用的python路径不正确,使用的是系统C盘的python

python文件路径地址

对于版本好解决,只需要卸载本机不正确的python版本,安装支持的版本即可。如果程序一旦调用的是非lora-script下的python,你所有的依赖项都会安装到C盘的python目录,所以安装好依赖项也是在C盘,lora-script也会无法正常拉起。为什么会出现调用其他分区的python目录呢?你在安装之前请先运行指令例如:cd D:\lora-scripts\venv\Scripts 激活虚拟目录。

激活虚拟目录后的状态

如果没有激活虚拟目录就进行安装会导致第三方依赖项无法安装到正确的路径。

2.安装工具前cmd看看本机where python 安装在哪个目录

也遇到过将lora-script脚本克隆下来之后运行install-cn.ps1出现依赖项版本冲突问题。这时候就要细心观察他调用的是哪个路径下的python,如果调用的是在非Lora-script的目录下的python文件,就需要重新建立虚拟目录,重新安装依赖项。

未将python添加到path环境变量,这个问题出现的问题也挺多。特别是没有安装过python的系统,首次安装一般要勾选path添加到环境变量。但是也并不是100%成功,你需要手动检查是否都将他们添加进去了。下图第一行就是我的python文件路径,第二行是C盘的Python3.11版本的路径,第四行则是3.10版本。添加路径地址样例为:D:\ComfyUI_windows_portable_nvidia\python_embeded\ 代表这个目录下有python.exe可执行文件。

虽然作者已经在代码里面写的很清楚调用当前目录的python文件夹,但依然会出现调用错误的问题。

lora-script-install-cn.ps1 内部代码

3.90%报错出在python依赖项错误

你可能认为假如我在A电脑已经安装好了脚本工具,我在B电脑就直接进行复制粘贴不就可以了?也行也不行。为什么?取决于他们的python版本是否一致,pip、git是否安装。没法保证每个系统下的依赖项都是一致的所以最好进行分别安装。

所以,当你面对一台陌生的计算机你应该先在cmd中问第一句;where python

最后,配合ChatGPT一起使用会让事情变得简单,报错出现应该将更多的信息提供给它分析问题。包括不限于项目地址,requirements.txt的版本要求,脚本的运行代码,python路径等等。

多抓鱼-是一个会做内容的二手商-深圳

在深圳·后海Kalo商场B1层,多抓鱼开了一个线下二手商品展,这让我一个逛商场从来不愿排队宁可不去的人耐心排队并还很好奇的打量这个品牌为何能取得如此成功。首先,我对多抓鱼的第一次接触是在2017年,那会租房空间不大,手里屯里很多旧书。而且这些事其实对我来说非常珍贵,翻开书就好像作者在和我娓娓道来那些他/她所看到的世界。对此,如果是直接将书当废品处理,没几个钱不说,很多书还舍不得。

严格质检而建立起的信任

当时了解了他们的公众号,书籍的回收流程非常严格,在字里行间能感受到对用户的尊重,是一个非常用心做产品的公司。比如他们将回收来的书籍进行质检(确认是否为盗版),细致到通过使用放大镜来查看字迹印刷油墨的品质(还受到出版社的专业认可)。回收的书籍会进行二次消毒,再进行塑封包装,之后等待下一个读者打开。

每本书都会被认真对待,从用户端能够清晰的知道书籍的品相,销售的价格,以及谁购买了你的书籍(如果要是开放社交功能那就更好了,哈哈哈哈哈,发现彼此的阅读喜好,甚至还能找到相同话题)。

每回收一本书你都能获得相应的鱼币,这个鱼币能够有优先获得购买书籍的权限,也可购买周边。周边无形中也提升了品牌的传播。而遇到想买的书籍,也会在多抓鱼试试手气,万一真有呢,省钱又环保。

你觉得多抓鱼的用户都有哪些特点呢?

多抓鱼-一本书的回收旅程
多抓鱼-二手服装
二手-牛仔裤
多抓鱼-周边
多抓鱼-二手书
多抓鱼-T恤

OpenAI推出ChatGPT的搜索功能将改变用户获取信息的方式

我是一个游戏行业的从业者,只是在工作业务上享受到了AI工具带来的便捷和机会。自认为阅历不多,对这块可能暂时不具备深度凝练和总结。从收到OpenAI在推特发布的更新来看,这将会是一场用户获取新讯息的革新。23年和同事在聊,大家都在聊OpenAI,当时细细思考很是震惊,我认为它一定会是替代谷歌的,并且在搜索结果上获取的信息更加完整,准确,干净。而在今天发布这个消息显然技术已经成熟,他将造福更多的人。

技术创新和不断深化

ChatGPT的搜索功能基于GPT-4o模型构建,能够快速提供最新信息,并附上相关的网页链接,这标志着AI技术在搜索领域的应用正在不断深化。

抢夺谷歌的市场份额

不仅仅是和谷歌在技术上的正面硬刚,同时还会抢夺谷歌的市场份额,当前谷歌在信息检索上获取方式上还是属于被动型的接受,用户顶多看到1-2页结果后面的数据就压根没人看。同时,对于信息提供方(网站、移动网页、公司、产品等等)则不需要考虑SEO优化,关键词排名等等,而更应该注重内容的真实性,以及是否真正对用户有价值。

用户体验与交互

ChatGPT的搜索功能属于连续对话方式,并且上下文关联,从获取到信息用户进行理解还可以进行提问,矫正信息的真实性,这无疑提供能加灵活自由的沟通方式。信息检索方式的改变,也更直观体验更舒适。

与数据商合作是用户习惯的功能补充

提供天气、股票、体育、新闻和地图等类别添加最新信息和新的视觉设计,是与谷歌的一场功能的平替竞争,这类信息是用户日常使用频率最高的,无疑是让人更加惊喜的功能。

关于ComfyUI-工作流连线会断开的问题

这个问题没有发生在我身上,是同事在使用comfyui过程中遇到的问题。出现这个问题的场景是在启动工作流之后,loading出界面会出现已经连线完好的工作流程连线会断开的情况。

如图所示:

这个问题应该不是一个常见且容易复现的问题,我尝试在一些AI群里提问,包括去Google进行搜索很难找到类似的问题。后来,在reddit中进行提问(可以点击这个链接),老外反馈的问题是mixlab这个插件的bug导致,我猜测是因为不兼容的原因。

这个插件有人反馈必须要通过git进行安装才能正常使用,之前也遇到在换脸工作流的配置中因为版本不兼容而报错的问题。

对此,进行一个记录。希望搜索引擎能够尽快收录这篇问题哈哈。对于当前因为mixlab插件导致工作流断开的bug如果有遇到的类似的问题可以试试重新安装这个插件,或者切换到更低的版本时间。

我用637张游戏图标训练XL模型-免费提供下载研究-禁止直接商用

这件事是我一直想干的。在游戏项目中,基本上用的还是1.5版本的lora模型,工作量紧张,有时没法去做模型的迭代优化。游戏实际项目中去运用最大的痛点还是形状没法很好的控制。Dreambooth+lora也是我一直想去做的事情。

XL模型的特性分辨率更大,支持的文本语言更多,自然对图标的形状辨识度会更高。这是我结合实际观察来说的一个猜测。但训练XL模型门槛也随之拉高,需要更高的显卡支持。所以,最近趁着有时间赶紧尝试一版本,我会在文中随时更新动态。

这次我使用的是A800-80G显存,素材637张,使用XL默认的checkpoint,训练轮数60,每6轮保存一个XL-lora模型,其他参数默认,共403800步。

期待接下来的跑图效果。

关于云端算力的研究

实际上我研究了一遍 AWS 的EC2算力服务,如果是48G的显卡粗略估计在上百美元左右。官方博客也分享了实际如何去搭建这样一套环境和流程。详细可访问这个地址:https://aws.amazon.com/cn/blogs/china/stable-diffusion-comfyui-deployment-solution-based-on-amazon-eks/

后来找到一个专注AIGC的云端算力服务星鸾云,他们提供A800-80G显存的算力,目前估计是新上线价格也还不错6元/小时左右,对我来说是一个比较合适的产品服务。但是总体后台操作上可能还存在一些不足。感兴趣的可以前去体验。

跑图多久

实际这张卡跑图就跑了三天,如果全部训练完成得需要6天时间,我会去训练过程中不断拿产出模型去做测试,所以达到标准就直接终止了。最终训练费用在400元左右。

跑图效果

投入的训练集素材是512分辨率,担心质量不佳。实际效果确实真好,因为XL的升级优化感觉对文本的识别能力提高不少,输入的文本内容效果基本都能满足精度(但同样也存在随机性变化问题、造型问题)。

它不仅仅是习得训练集中已有的素材效果,输入其他内容,比如人、动物等它同样能将风格、上色方式给迁移过去

生成的素材造型、色彩,都提高不少,例如能够捕捉到提示词 smile 在宝箱图标结合上的合理性,这在SD1.5版本上是会逊色很多的。

以上跑图来自comfyui环境下。不足的地方就是细节造型不准,颜色偏暗。在sd-webui上跑图开启高清修复效果会更好。

下载地址访问哩布:https://www.liblib.art/modelinfo/adeaf829f9a04f238dfff370bc1df8f4?from=personal_page&versionUuid=5fbcdd4ca04c4a4091f4ae462dfe4e31

请搭配 base_xl 官方原版模型使用,lora权重请控制在0.6-0.8之间,触发词: Trilightlabs style, 后续接图标属性例如:gem,stone,drink,ring,shoes,flower,treasure chest

这个图标的特点几乎涵盖日常需要使用的游戏图标种类,可以尝试各种属性提示词,此lora模型风格主要偏写实日韩二次元游戏画面风格。

关于SD-FLUX-AIGC的模型训练工具的使用感受

今天来说说我所接触的这四个训练工具,目前来说稳定性比较好,受到广大群众认可的训练工具。其核心都是采用的kohya-ss底层。我之所以推荐这四个其实基本上考虑到易用性,对新手是友好的。

硬件要求:最起码16G的显存起步,如果没有最好是用线上训练平台来做。时间效率会高很多。kohya本身是本地部署的,包括秋叶训练工具。如果要从易用性上考虑还是推荐用秋叶训练包,界面友好、文本解释性的内容直观,能够消除新手入门的很多疑惑。

kohya也是有GUI界面的,使用的是gradio的框架,和stable diffusion界面一致。但是,如果对训练原理不太懂其实并不推荐,这会让你因为各种参数,报错给折腾的无从下手。

kohya-ss 地址:https://github.com/kohya-ss/sd-scripts/tree/sd3

秋叶训练 整合包项目地址 https://github.com/Akegarasu/lora-scripts

Civitai 模型训练平台 地址:https://civitai.com/models/train

算力需要收费,5美元5000个Buzz(也就是显卡算力),相比liblib稍微便宜一点昂。个人比较推荐的训练平台。支持多个任务同时进行,支持最新flux模型lora训练。价格比较便宜,数量集最大支持1000的限制。

交互设计上采用分阶段提交的方式,各个参数说明都挺详细,训练过程如下:

civitai flux 模型训练界面

实际训练体验

如果你是仅训练单一风格素材(例如单一人像风格,单一属性元素的图标等等)并且训练集的数量较少可以选择这个服务。否则你的训练集过多会因为总步数的限制导致训练效果不佳。后台给你的总步数是10000步,超出这个数系统不会执行。

liblib 训练 地址:https://www.liblib.art/pretrain

liblib 模型训练界面

他们的界面简化了训练参数,如果需要专业参数可以点开设置。

哩布哩布的话是生成会员+训练会员制度,如果你是有训练需求的话只需要购买训练会员就可以了,一般训练300训练集以上要充值199元,59元是一个基础的模型训练仅支持200张训练集

实际效果如何可以访问这个地址:Flux-日韩二次元 写实 游戏图标模型

基于flux1模型训练的lora,实际使用请看详细说明。

扒取-“超自然AI换脸教程”-来自哔哩哔哩

看了这个作者的演示,效果确实不错,但是我细查了下发现是培训机构的。所以想要获取他的流程必须要三连加微信才能获取到,而且一时半会还没发给我。本着提升自己对comfyui的熟悉度,我照猫画虎的1:1给还原了过来。

原视频地址:https://www.bilibili.com/video/BV1eXsheNEon?p=2&vd_source=b6c524e3d38fe874f7e2148d9ca2d1bc

为什么叫扒取又打引号呢?根据视频截图保存本地推演出来的,但实际效果是否那么好呢?有待验证。

下面分享下我在配置这个工作流遇到的问题:

按作者要求安装一下插件节点(我列的不全,这个视频作者提到的插件都要安装昂):

1.mixlab(我在这报错多)

2.ipadapter(这个已安装的略过)

3.comfyroll(原图放大节点,改善加载图像不够高清的问题也可以理解为高清修复)

4.instantID(这个已安装的略过,记得需要下载ipadapter.bin模型)

总体流程搭建简单,主要分为三部分,首先通过输入图像(不清晰的直接comfyroll放大节点)来到ReActor换脸,这时候效果可能不佳,接着引入instantID节点,之后再通过ipadapter进行迁移风格,得到最终效果。(使用基础模型为XL)

整体工作流如上

说下mixlab报错,这个插件需要将版本切换到4月月份的版本,同时instantID也要切换到4月27的版本,否则两者会出现兼容性问题。尤其是mixlab最新版本会导入错误。切换版本解决。

工作流分享:https://trilightlab.com/wp-content/uploads/2024/09/segment-ipadapter-anything换脸.zip

演示环节:

我要将刘亦菲的脸型嫁接到中间这个美女脸上,得到图3刘亦菲换脸的最终效果

原图
将要替换的脸型
最终换脸效果

这里又2点要注意:

controlnet加载器的模型选择instantid/diffusion_pytorch_model.sfetensors模型 不然效果很差

K采样器的参数:

继续演示:

将图1的女孩脸型替换到图2上,得到图3的效果。

结论:总体来说符合我的预期,品质也很高,并且相比flxu上期分享的流程速度快精准度稳定性一些。

Flxu换脸工作流的使用体验

这个换脸流程逻辑简单说一下,使用的是Flux-GGUF的基础模型,依靠提示词生成一个人体姿势,然后再上传一张将要替换的脸部人像,通过face swapfacedetailer两个插件进行交替叠加效果,从而获得真实的换脸操作。有个缺点,目前还没法找到头部以下解决清晰度又能够做到保真的效果。

下面是案例:

韦德换脸

上传图
face swap only 生成
face swap和facedetailer相互叠加

放个大点的工作流可以看到,左下角是上传要换脸的图,左边第1张是文生图。他们相互融合通过插件生成第二张和第三张效果。那这两张有什么差别? 我实际对比发现第三张能够加强脸部的光线处理,立体感更强,脸上的细节会更多。

科比换脸

输入图像
face swap only 生成
face swap和facedetailer相互叠加

这里我适当的将提示词加入了科比的名字,正好因为之前模型有这部分的人像训练,所以才会换脸的精确度更高。你可以发现左边第一张的文生图效果就已经很好了。

贝克汉姆换脸


输入图像
face swap only 生成
face swap和facedetailer相互叠加

发现,它目前替换的还仅仅是脸部这块,头发没有做替换。得要研究下如何将整个脑袋进行替换融合这才是真正换脸,从而达到逼真的问题。

结论:

从换脸的流程来看,faceswap的换脸操作能够稳定替换,但是不够逼真,需要研究遮罩能够覆盖更大的替换范围。

没有一招鲜的方法能够全部通吃,每张图不一样,参数也要适当做修改。

启发:

如何修改这个流程让其仅替换脸部?不用文生图来做底图。上传2张图,1张是将要替换脸部的,另1张是将要被替换脸部的图,身体保留。这样能够做到真实性,避免衣服变形或者字体动态不对。(当然前提是对真实性要求非常高的前提下)