Gemini 2.5 Flash Image (Nano Banana) 指向性修改游戏道具图标不再是梦

照现在这个大模型的迭代速度,实现口交创作不再是梦想。笔者打算把 Qwen-image 的模型进行一轮改图对比测试,结果还躺在草稿箱。

这不,谷歌的Gemini-image一出,改图能力太强大了。身边同事都不免说出牛逼的惊叹。这妥妥的就是懒人设计师的福音,改图口交的神器。哪怕游戏策划再多修改要求,那也是分分钟都能出很多方案啊!实在是等不及想分享给游戏行业的设计师、开发者们。

另外为了体现出Gemini 2.5 Flash Image的生图能力,我单独开了一个专栏进行记录分享:https://trilightlab.com/about-_aigc/

废话不多说,开测。依然是左边是原图,右图是修改后的。

要求:将这个图的王冠修改一个兔头,保持画面风格的一致

修改要求一定要明确,具体。不要出现过多的形容词,例如:参考、大一点、小一点、类似这种抽象类词汇。

要求:将这个图左边的绿叶植物换成水仙,花朵换成水仙花,要求画风一致,将瓶子的颜色修改成绿色主色调。

要求:参考这个构图,重新绘制一个以哈利波特元素相关的药水瓶,要求构图类似,同时融入哈利波特的一些经典元素,植物花朵元素换成食人花,瓶子的主色调为紫色和棕色,有冷暖的对比。

到这一会发现它的修改能力下降了,有可能是因为提示词还有待提高,但同时我认为还存在缺陷。让它参考构图重新创作美感,构图表达是局限。即使你的修改要求巨长,描述的非常具体模型对审美上理解是存在缺陷的。这是天然的一个缺陷。

要求:将图中蓝色的小女孩换成一个老人

上难度,给它潦草的草稿,将图进行上色。该工作流支持2张图,多张图融合输入。

要求:参考图1的画风,给图2进行上色,做成彩色,画面风格一致

总体对于我来说很不错,指哪打哪,很舒服!

线稿上色

要求:参考图1的参考构图,将图2的脸迁移到图1,同时给同1的草稿上色

以上,我认为这将是又一次新的工作流革新。原画师、UI设计师能够在基于现有的设计稿,将工作流嵌入自己的项目中,提供多种设计方案不再需要数小时的修改,更不需要和上游策划掰扯如何修改更合理。多种方案对比之后必然是找到更合适的解决方案。

更重要的是能够让广大的设计师从繁琐的工作中解放出来,聚焦很重要的工作内容上。但同时我们的文字表达又是有局限的,设计师在屏幕上画两笔抽象的形状,文字如何表达出来?这种前后关系文字表达注定是缺点,希望对你有启发。

工作流地址:https://blog.comfy.org/p/nano-banana-via-comfyui-api-nodes

QWEN-Image 可能是目前开源最强大的中文生图模型

在我的工作中,缺个能够完全支持中文的同时具备文生图能力的高品质模型。在了解到Qwen模型能够通过中文达到指向性的修改的能力,所以在这做一波测试效果对比。我对比的是字节的即梦模型,它在游戏行业中logo、海报、美术字、场景、人像角色泛化能力算是比较强的。接下来会划分几个维度看看他们的能力处在一个什么样的边界。

注:以下效果图左边是即梦,右边是Qwen本次测试的Qwen模型为20g大小的精简即梦为3.0

游戏道具图标测试效果:

厚涂中国风,游戏图标,仙侠法宝,玄幻色彩,九宫格显示9个造型各异的宝箱道具图标,设计精良,细节丰富,充满金属光泽,高档,闪亮,发光,色彩鲜艳明亮,多种材质,镶嵌宝石,金色花纹装饰,散发着神秘的光芒,纯色背景,正面斜45度视角,色彩简洁明快,奇幻插画风格,大师作品

宝箱设计风格的一致性不错,角度也一致,唯独两者在细节花纹上都需要二次修正。

icon图标设计,一共九个,图标顺序依次是:汉堡,薯条,炸鸡,可乐,鸡肉卷,奶茶,面条,米饭,包子,3D,立体感,颜色统一,白色背景,光影质感

这组图标,两者总体风格是一致的,但是在细节效果上即梦完善的更好,造型美观度要比Qwen好,体现在鸡腿的造型和细节,可口可乐的易拉罐会更有辨识度。

主题为会员等级徽章,9个不同等级六角形花状勋章图标,勋章中心有一块宝石。等级越高宝石越复杂 ,有外型上有翅膀。等级越高翅膀越多越粗 ,D游戏美术风格,生成勋章,颜色丰富鲜艳,有光感有质感,,线条简洁,

勋章图标即梦的高光处理会更更好一点点,而在造型复杂度上体现出梯度规则Qwen会完善的更好一些。总体美观度个人认为即梦的会更好。但论文本提示词的准确度中间有一块宝石Qwen更符合要求。

海报测试效果:

艺术家Kim Jung Gi设计风格,高饱和色系,极繁主义,神秘感,细节完美,极致光影,杰作。 钢笔插画风格,鸟瞰,一个小镇,所有房屋都是由可口可乐易拉罐改装成的,每个罐子房屋都是两层,有门有床有阳台,屋子里家居生活用品一应俱全。马路,车,拥挤,人群,生活气息,周边都是热带树林 高品质细节,超高清分辨率,最佳品质,笔触清晰,高饱和度,光影对比,电影质感。32k超高清细致修复

可以看出Qwen缺少对艺术家风格的理解,上色方式不同。旁边的造型建筑没有体现出来,总体风格效果效果不如即梦的好。但论结构造型也有它独特的地方。

一个被切开的青色苹果内部有一个制作工厂,工厂里的工人正在制作青色的苹果果冻糖,果冻糖躺在向外输送的传送带上。橙色背景上有忙碌的工作场景,旁边有小人物。微缩摄影、微缩模型、立体模型风格、柔和的马卡龙配色方案、3D渲染。整张照片具有很强的透视感,细节和纹理很多,营造出整体温暖的氛围。高分辨率、高质量和高细节。比例 2:3。

没啥好说的,构图和细节都基本一致。

一个有山有水的成都城市手绘图,插画,层次分明,国潮,只此天蓝色的色调,五彩斑斓,景色尽在眼底,壮阔雄伟,令人震撼,成都地标建筑(电视塔,九眼桥,IFS金融中心,武侯祠,宽窄巷子,环球中心),熊猫、竹子云雾环绕,仙气缥缈,色彩丰富,结构复杂,细节丰富,高清晰度,8K,主视觉背景。“成都”字体在左上角

这里的构图即梦会更有美感,动态趋势线比较明确,河流从左边环绕到右边,旁边建筑结构排列有序,不凌乱,建筑版面重心靠右,左边文字让画面平衡。而Qwen在构图上节奏有点乱,建筑的排列不好看,版面总体平淡。

美术字测试效果:

厚涂水墨风格字体“仙逆”,中国书法字体变形设计,字形笔画粗壮饱满如墨龙翻卷,呈青铜绿色调,融合金属质感与火焰质感,边缘有红橙色火焰光晕,仿佛从古代神兵中铸出,主字体带雕刻般高光与阴影,笔触如刀锋刻画,背景纯黑,右上角有英文“RenegadeImmortal”,搭配古印“阿K”字印章,整体构图对称厚重、层次感强,用途CG游戏海报设计,类型海报图,画风融合山海经风格、中国古代神话题材与现代数字绘画工艺,CG游戏海报风,虚幻引擎渲染感,特写,东方玄幻氛围,立体、神秘

毛笔字笔触和意境 即梦会处理的更好,而Qwen在细节度上会差点,主要体现在笔触质感上。存在部分效果没有依照提示词的效果来。

射击游戏特效标题字设计,以银灰色金属质感字体呈现主标题’枪战王者’和副标题’赢极品枪械福利不间断’,文字边缘有深色描边和立体效果,画面融入子弹、油渍、火星等元素并与文字巧妙融合,战争游戏背景,矢量插画风格,标志设计,特写,硬朗科技氛围,精致和谐统一,细节丰富

这里文字内容都符合要求,细节度上即梦同样会完善的更好一些,例如子弹的刻画上金属质感较好,而Qwen在子弹元素处理上会更Q版。文字的质感也存在同样问题。

正面居中呈现超现实风格的3D立体文字’英雄归来’与副标’HEROES COME BACK’,巨大的站立字,运用对称式构图。文字由抛光的金色和银色合金板材交错层叠,塑造出双层的厚重感。鲜艳的深红色能量流沿着字母的转折处,每一笔画内部巧妙镶嵌着立体的矢量齿轮图案和散发微光的光纤凹槽。字母的连接部位被锋利如剑的折线光刃穿透,镜面质感的金属表面映射出蓝紫色的粒子状光斑。以深邃的黑为背景,极大地增强了画面的立体景深效果。文字的边缘仿佛是金属液体瞬间凝固的模样,带有熔融后的独特质感。整体字面结构被硬核的几何光影切割得棱角分明,文字表面布满了如同纳米机械雕刻出的细微纹路,用于极具创意的超现实文字设计,超现实,正面居中,对称构图,科幻感,精细刻画

字体设计“黑暗时刻”,哥特体风高垂直比,笔画尖锐,修饰性强,复古庄严,用于奇幻 哥特气质字体,纯黑背景#000,轮廓衬线,楔形,红色高光,笔画延伸,艺术感。

对称式排列的古文明科幻风格3D立体文字「文明密码」与副标「CIVILIZATION CODE」,远古遗迹般的巨型文字。文字由刻满象形文字的玄武岩构成,形成神秘的时空交错感。笔画内部隐藏着旋转的密码盘与星象图。以深褐色为背景,突出考古氛围。文字充满文明探索的神秘感。

场景图测试效果:

正面视角,这张图片描绘了一个摆满了物品的书桌或工作台,背景是一面深蓝色的墙壁。整个场景的光线偏暗,但有两处光源营造出温馨而专注的氛围:一盏从右侧照向桌面的台灯,以及一盏从上方照向墙壁上画框的射灯。 画面的核心是一个巨大的金色奖杯,它被台灯的光芒照亮,显得光彩夺目。奖杯的底座上写着“CHAMPION”字样,它旁边有一个日历,上面显示着“TASK”。 桌面上散落着各种物品,似乎都与篮球或体育相关。我们可以看到一份展开的报纸、一本写有东西的笔记本和一支笔,以及一个放着平板电脑的支架,平板屏幕上似乎显示着一个九宫格或表格。在桌面的左侧,有几本书,其中一本的书脊上有一个“23”的号码。桌面上还有一些零散的纸张和照片。 在背景的墙壁上,挂着几个画框。最显眼的是一个大的横幅画框,里面是一张篮球比赛的图片,可能是某位球员在空中投篮的瞬间。这幅画被单独的射灯照亮。左侧还有几个更小的画框,里面是黑白照片,似乎也是与篮球运动员相关的。在桌子的最右侧,有一个印有NBA标志的杯子。 总的来说,这张图片营造了一个充满个人风格和成就感的书房或工作空间,暗示着主人的兴趣是篮球,并且他可能是一位取得了某种成就的冠军。

森林的草地上有两个可可脂,几个巨大的可可脂,切开里面是一个微观巧克力生产工厂,工人在生产线上忙忙碌碌,生产出来的德芙巧克力从生产线输送到小卖部售卖,生产线连接几个巧克力工厂,超现实主义,3D动漫卡通风格,色彩鲜艳,细节丰富,超细节刻画,超高画质

这是电子游戏的封面艺术,地下城骰子。这张图片是对地牢场景的生动、卡通般的描绘。以下是内容的细分:* 中心焦点:一组四名chibi风格的冒险家是中心焦点。有一个挥舞着火焰剑的骑士,一个是巫术类型的角色,还有另外两个,可能是流氓或战士,穿着深色的衣服。他们似乎在面对各种怪物。* 怪物:一个看起来像岩石的大型生物在中间占据了主导地位,似乎是老板或主要敌人。前景中还有一个像蜘蛛一样的大型生物,背景中还有更小、定义较少的怪物(包括看起来像骷髅的东西)。左上角可以看到一个女巫般的身影。* 游戏标题:标题“DUNGEON DICE”以风格化的字母突出显示在顶部。“地下城”中的“O”包含一个头骨。* 调色板:配色方案主要是蓝绿色/水绿色和棕色,还有火和其他细节的橙色和黄色。这创造了一种明亮又不太暗的幻想感觉。* 风格:艺术风格让人联想到漫画书或漫画小说,轮廓清晰,人物设计略显夸张。简而言之,这张图片是一件动态而引人注目的艺术品,非常适合宣传一款名为“地下城骰子”的游戏,暗示了人们可能期待的地下城爬行和掷骰子的游戏玩法。

角色人像测试效果:

机甲版孙尚香头部特写,荧光蓝短发渐变玫红,虹膜植入全息瞄准镜;金属护额延伸至太阳穴,耳麦闪烁数据流光;面部覆盖半透明能量面罩,反射弹道轨迹;背景星空粒子特效。赛博朋克风格,霓虹光污染,高饱和度色彩,故障艺术边框——ar 16:9

复古肖像,摄影风格,柔焦,纯净的脸,鹿,女孩,鹿角,藤蔓带叶子,金发,欧美高级脸,雀斑,细节光影,风,(强阳光),两个辫子,森林,前光源,,(星河),飘逸的裙子,巨大的花朵

拟人化的毛茸茸猫咪,正在玩真人CS游戏,户外丛林真人CS游戏场景,3d渲染风格,近景镜头,紧张、刺激氛围,质感、写实修饰

总结:

总体下来即梦的美感、细节处理上会更好,这个钱收的硬气。

本次对比测试不严谨,因为用的Qwen模型为20g,这种精简版的数据体量相比40g少了一半,自然对画面细节,文本的理解能力会降低。但Qwen依然是开源的中文模型文生图能力最强的。

待有时间尝试全量版的模型做个对比,相信会更有意思。

Qwen-image延伸阅读:https://docs.comfy.org/tutorials/image/qwen/qwen-image

二次元fluxlora模型分享-建议搭配union-controlnet-v2使用最佳

这个模型基于flux-dev版模型训练的lora,具备很好的泛化能力。二次元风格,这个模型可以结合线稿、参考姿势结合union-controlnet-v2模型一起使用,能够很好的控制造型姿势。

controlnet-v2工作流

图1是参考图,图3是结合姿势生成的效果。

下面两张图是完全通过参考姿势,完全由模型生成的效果,最终在ps中进行合成构图。

训练参数

最大训练24轮,打标采用触发词和tag组合,素材分为场景图和单人角色效果,拆分训练

下图为文生图效果:

以下是lora通过controlnet-v2 一起使用的流程效果,包括最终修复的效果。

通过网盘分享的文件:

模型触发词:yifanjie_girl,后续接自然文本描述 lora模型权重建议在0.7-0.9之间

链接: https://pan.baidu.com/s/1PQi21XKcrFCvjroZoJXSTQ?pwd=3f54 提取码: 3f54

配套的union-controlnet-v2工作流:https://huggingface.co/Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro-2.0

我是如何正确本地部署 Spark-TTS

Spark-TTS太强大了,你能看到的短视频、第一视角的剧情解说基本上都是出自这个开源项目。正好我打算用它来生产音频内容。看到github上那么多人反馈报错问题,确实头大。我在按照上边要求部署的时候也同样遇到问题,折腾了差不多6个多小时总算解决。我不想详细列步骤了,我的操作步骤都和以下作者一模一样。

Windows 安装步骤:https://github.com/SparkAudio/Spark-TTS/issues/5

报错1:执行pip install -r requirements.txt依赖库安装出现兼容性报错

解决办法是:pip install scipy 安装这个库,再继续执行 pip install -r requirements.txt 即可解决

报错2:TypeError: argument of type ‘bool’ is not iterable

看起来是conda出了问题。我因为安装的是miniconda,后来重新下载了安装版重新配置环境得以解决。

报错3:Traceback (most recent call last):
File “D:\SparkTTS\webui.py”, line 266, in
demo.launch(
File “C:\Users\MLoong.conda\envs\sparktts\Lib\site-packages\gradio\blocks.py”, line 2674, in launch
raise ValueError(
ValueError: When localhost is not accessible, a shareable link must be created. Please set share=True or check your proxy settings to allow access to localhost.

项目拉不起来,直到继续翻 issues 看到有人回复安装:pip install pydantic==2.10.6 安装完后继续python webui.py 拉起命令,项目正常启动。

如何从头开始构建 LLM 大模型?

这篇文章面向对神经网络LLM大模型构建感兴趣的人,写这篇文章一方面是作为自己想从头开始了解LLM构建原理,从中有所收获。作为一个应用层面的设计师(我自己),实际上并不需要懂那么多的底层原理,但正如作者介绍的那样,如果你是个赛车手,你完全不需要去建造一辆方程式赛事,因为它太昂贵,付出的时间巨大。

或许我们可以做一辆更加简单,快速上路,不断调试的卡丁车,在这个过程中不断调教,享受这个过程。比如赛车手迈克尔·舒马赫和埃尔顿·塞纳,从而掌握车子性能的敏锐度。或许也比其他设计师更有优势。

作者 Sebastian Raschka 塞巴斯蒂安·拉斯卡 是一名法学硕士 (LLM) 研究工程师,也是《从零开始构建大型语言模型》的作者。作者对推理模型和LLM领域有深入的研究和丰富的经验。他通过自己的努力和研究,为读者提供了有价值的内容,帮助读者更好地理解和掌握LLM技术。

作者将这本书提炼浓缩出7个视频,详细介绍了从头开始构建LLM的各个步骤,包括代码环境的搭建、文本数据的处理、注意力机制的编码、模型架构的实现、预训练、微调等。通过实际的代码示例和详细的讲解,可以深入理解LLM的工作原理,并掌握构建自己的大语言模型的方法。

1.设置代码环境(0:21:01):介绍了如何使用uv设置Python环境。特别提到了使用“uv pip”,并在文档中进行了解释。同时,也提到了原生“uv add”语法。需要注意的是,安装过程可能会在某些版本的Windows上出现问题,如果遇到问题,可以跳过TensorFlow的安装,并使用作者在Hugging Face模型中心共享的转换后的GPT – 2模型权重。

2.处理文本数据(1:28:01):该视频介绍了LLM训练中文本数据的准备步骤,包括分词、字节对编码、数据加载器等。

3.编码注意力机制(2:15:40):详细解释了如何从头开始编码注意力机制,包括自注意力、因果注意力和多头注意力。可以将其类比为构建汽车的发动机。

4.设置代码环境(0:21:01):再次介绍了如何从头开始编码LLM架构。

5.在无标记数据上进行预训练(2:36:44):解释了如何从头开始预训练LLM。

6.用于分类的微调(2:15:29):以垃圾邮件分类为例,介绍了如何将LLM微调为分类器,为下一个视频中的指令微调做铺垫。

7.指令微调(1:46:04):最后介绍了如何对LLM进行指令微调。

作者也提到在学习这个视频中最好搭配书本一起学习,有开发者将其翻译成中文,并通过GitHub进行开源共享,链接为:https://github.com/skindhu/Build-A-Large-Language-Model-CN。该项目提供了原版的英文电子书和翻译后的中文版,按照章节组织,与原版英文书籍一一对应。同时,项目还对原版英文书籍中的图片进行了翻译。

在翻译过程中,采用了分阶段的翻译方案,先使用AI翻译助手进行粗翻译,再由另一个AI Agent进行审查与修正,最后进行人工精细翻译,确保翻译的准确性和流畅度。此外,译者还加入了自己在遇到不理解或不了解的部分时的思考和解读,帮助读者更深入地理解大模型的各个方面。

对于希望深入了解GPT等大模型架构、训练过程及应用开发的开发者来说,《从头开始创建LLM大模型》这本书及其中文翻译版本是不可多得的学习资料。

分享手动安装搭建Flux-GYM训练工具

哎,其实我更希望分享一些高级一些的东西。天天整这些也不是个事,但是为了能够搭建本地训练环境还是咬着牙踩这个坑。

言归正传,说下基本的配置要求,这个工具要求python版本要在10-12之间,你可别装13的python版本,因为后续会给你安装依赖库带来报错,查来查去最终是因为13版本并不匹配。

另外先安装好Microsoft visual tool生成工具,Visual Studio 2022 版本最好,并且安装完成勾选C++ 桌面开发

再其次,一定要安装nump 1.26.0的版本,2.0以上依赖库会出现冲突。安装node-v20.14.0-x64,安装Rust。这些都是在安装过程中需要对依赖进行编译才能成功安装的基础工具。

对了,Microsoft visual tool C++ 编译器安装成功一定要在环境变量中加入path,set PATH=%PATH%;C:\Program Files (x86)\Microsoft Visual Studio\2019\BuildTools\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64

可以根据14.29.30133改成你自己安装的版本,以上命令在CMD中运行可加入(强烈建议手动添加)。

以上基础工具安装完成,再根据github中的要求按步骤进行安装。

克隆项目到本地,再从创建python的venv虚拟目录创建,激活并安装依赖都是正常的,我在sd-scripts安装依赖到flux-gym根目录下安装依赖都正常。

最后一步,唯独在这一段:pip install –pre torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu121

命令安装 2.5.1+cu121出现报错。为啥呢?因为requirements中并没有将这个包:optimum-quanto 指定安装版本,因为optimum-quanto要求 torch>=2.6.0,但系统安装的版本是 2.5.1+cu121

对此那就将optimum-quanto指定下版本, pip install optimum-quanto==0.2.6

最终安装完成,折腾了我3个小时。真是感谢作者吼。

以上,希望在遇到同样问题的人能够提供帮助。

训练Dreambooth-XL模型比较节省显存的做法

在训练Dreambooth-XL模型中,4090和3090已经是大部分普通设计师能够使用的显卡训练了,训练Dreambooth比训练lora需要更多的训练集,同时Dreambooth模型支持更多的概念同时训练,而lora更多是解决单一概念的风格微调。

这就导致更多的训练集需要更多的步数才能拟合,也就对训练的显卡显存有更高的要求。

本文分享一个能够针对Dreambooth-XL模型训练优化参数节省显卡显存并降低训练时间的方法。我在这里主要是修改了三个地方:

我的训练集为622张,最大轮数为30epochs,修改batch_size参数为4,这样可以加快训练速度。

如果你不打算训练lr文本编码器(也就是不再赋予模型更多的语言理解能力),可以将lr的学习率直接去掉,仅训练模型的Unet部分。

同时将开启余玄重启次数为2,开启梯度检查点

将以上参数设置好之后就能顺利开启训练:

以上为3090ti的显卡配置,去掉文本编码器的学习率将batch-size:改成 4

如果你不需要模型赋予更多的语言理解能力,可以参考以上参数进行调整。

以上参数的调整证明了修改以上参数能够将batch-size改成4并且能够正常训练(不做修改则只能将batchsize调整成1,否则会终止训练并报错),减少了学习步数,加快的训练速度。

分享一个不全面不客观的flux-train训练工具测评

黑森林团队出的flux模型因其强大的参数,惊艳的细节效果广受欢迎,现在已经在各类AIGC平台占有很大的曝光量,甚至现在libulibu首页也是主推f1.0的lora模型,因其少量数据的微调就能获得很好的效果受到很多人的喜欢。

因为职业关系,我在工作上也尝试了flux-lora模型训练,接下来我分享pinokio-flux-gym训练工具和flux train-aitoolkit 两种工具的差别。

pinokio-fluxgym

优点:安装简单,易上手

缺点:只能训练flux-lora模型,如果想要训练sd1.5和XL模型你需要在社区中找到Kohya训练工具

Pinokio是一个AI社区浏览器,它整合了很多AI工具及工作流。它的优势在于即使你是一个不懂编程语言的小白也能轻松配置好flux lora 的训练环境,安装好pinokio工具之后,直接在探索中找到fluxgym,即可一键安装,其中python环境、第三方依赖性、模型配置等等你完全不需要自行考虑。坐等它配置好就行。

它底层基于Kohya Scripts开发,所有的参数设置都是统一的。在前端界面上采用三分法的布局设计,简化了操作步骤,123的布局设计让人一目了然,降低的理解门槛。在刚开始阶段,你都不需要详细了解具体的参数设置,只管提供优质的训练集就能拿到很好的模型效果,点赞。

实时的训练预览效果,它提供多种不同的预览图触发效果:

1.否定提示词

2.指定生成图像的宽度和宽度

3.指定生成图像的种子

4.指定生成图像的CFG比例

5.指定生成中的步骤数

支持显卡显存12G、16G、20G以上

支持的底模:flux-dev、flux schnell、flux-dev2pro(实际上训练最好用flux-dev1.0、flux-dev2pro)

FluxGYM可以修改训练集的数量 app.py文件,将 MAX_IMAGES = 修改即可

import os
import sys
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
os.environ['GRADIO_ANALYTICS_ENABLED'] = '0'
sys.path.insert(0, os.getcwd())
sys.path.append(os.path.join(os.path.dirname(__file__), 'sd-scripts'))
import subprocess
import gradio as gr
from PIL import Image
import torch
import uuid
import shutil
import json
import yaml
from slugify import slugify
from transformers import AutoProcessor, AutoModelForCausalLM
from gradio_logsview import LogsView, LogsViewRunner
from huggingface_hub import hf_hub_download, HfApi
from library import flux_train_utils, huggingface_util
from argparse import Namespace
import train_network
import toml
import re
MAX_IMAGES = 650 //修改训练集数量

flux train-aitoolkit

优点:远程训练, 面向专业级玩家、专业的UI界面

缺点:不稳定,需要简单的代码阅读能力,要配合ChatGpt或者deepseek使用

flux train-aitoolkit 目前处在一个早期版本,意味着在稳定性、功能可能不是那么的好用,该工具并非基于Kohya Scripts开发,其目录结构也和我见到的不同,因为自己对这块认识不够专业性,不便多说。

它最大的特点是基于huggingface远程访问的方式训练模型,这意味着你需要使用huggingface账户,从huggingface获取一个READ密钥,方可进行训练。

它支持FLUX.1-schnell、Flux-dev两个版本的模型训练,因为需要在本地预先写好模型配置信息,所以你需要一定的耐心来配置远程访问的信息。说实话,笔者在github上安装完这个工具都头大,你需要有一定的耐心和好奇心。否则很容易劝退。

Screenshot

笔者在配置以上两个工具都遇到diffusers无法正常克隆的情况,所以你在配置这两个工具都要开启全局git代理,否则很大几率会克隆不成功报错。

如果依然报错请使用国内镜像:https://gitee.com/opensource-customization/diffusers

训练打标

flux的特性是基于自然语言描述打标,所以你在训练中请使用触发词和自然语言描述打标,这样在训练中能够得到很好的效果。这意味着你需要使用GPT、caption等模型工作流来处理你的训练集。笔者实际尝试过仅用tag来打标,发现训练效果并不好(基于秋叶lora-script)。

分辨率

flux对尺寸分辨率没有特殊要求,小到512、大到1024,768*1024也是可以的。

实际跑图

实际使用上,权重同样是0.7-0.9之间最好,并且是触发词加自然语言描述,你的描述越多,生成的效果越细节。这也意味着你在使用上需要对画面更具体的要求,甚至在想法没有那么具体的情况下需要借助deepseek这类工具给你提供帮助。

[转载]Understanding Flux LoRA Training Parameters-了解Flux LoRA训练参数

这是转载自cvitai的文章,作者分享了基于flux lora训练的参数在训练中对模型生成结果的影响表现,值得学习。原文地址:https://civitai.com/articles/11394/understanding-lora-training-parameters

Abstract  摘要

The intent of generating images for my purposes is always central to creating a feeling; however, using machine learning to create images presents the problem of control. Image outputs can be random, incoherent, and difficult to fine-tune for small textural renditions. Feeling and aesthetics are related; to be able to create a feeling with intent, the aesthetic has to be controllable. There are ways to control aesthetics with prompting, custom nodes, and sampling settings, but the most effective approach starts near the beginning of the model pipeline—with custom-trained LoRAs. When training a LoRA, I encounter a long list of complex ML terminology that only registers as abstract concepts within my camera-based foundational understanding of image creation. This research is conducted to help myself and the open-source community define and visualize the effects these parameters have on imagery.


为我的目的生成图像的意图始终是创造感觉的核心;然而,使用机器学习来创建图像存在控制问题。图像输出可能是随机的、不连贯的,并且难以对小纹理再现进行微调。感觉和美学是相关的;为了能够创造一种有意图的感觉,美学必须是可控的。有很多方法可以通过提示、自定义节点和采样设置来控制美观性,但最有效的方法是从模型管道的开始处开始-使用自定义训练的LoRA。在训练LoRA时,我遇到了一长串复杂的ML术语,这些术语在我基于相机的图像创建基础理解中仅被视为抽象概念。进行这项研究是为了帮助我自己和开源社区定义和可视化这些参数对图像的影响。

I created a dataset of 30 images generated by Kurt Schwitters, an early 1900s Dadaism artist, intending to synthesize his noninformative collage style into controlled imagery with formative subject matter. I trained four different LoRAs, each with a different combination of parameters at extreme variations, to compare the results. Because the training data is all abstract collage and I want to merge the style with defined forms, I labeled all of the training data with false captions, covering a range of scene descriptions. The training data is available here.
我创建了一个由20世纪初达达主义艺术家库尔特·施维特斯(Kurt Schwitters)生成的30幅图像的数据集,打算将他的非信息拼贴风格合成为具有形成主题的受控图像。我训练了四个不同的LoRA,每个LoRA在极端变化下具有不同的参数组合,以比较结果。因为训练数据都是抽象的拼贴画,我想将样式与定义的形式合并,所以我用假标题标记了所有训练数据,覆盖了一系列场景描述。训练数据可在此处获取。

1.1 Parameters tested  验证参数

Unet Learning Rate  Unet学习率

Clip Skip  剪辑跳过

Network Dimension  网络维度

Learning Rate Scheduler   学习率

Min SNR Gamma  最小SNR Gamma

Noise Offset  噪声偏移

Optimizer  优化器

Network Alpha   网络α

Learning Rate Scheduler Number Cycle 
学习率数字周期

2. Experimental Setup 验证维度

Dataset: 30 images, each trained under four LoRA versions with variations in key parameters.
数据集:30张图像,每张图像在四个LoRA版本下训练,关键参数不同。

Evaluation Criteria:  评价标准:

Text/Prompt Integrity (how well text is preserved in output)
文本/提示完整性(文本在输出中的保存情况)

Overall LoRA Strength (extent of stylization and fidelity changes)
总体LoRA强度(风格化程度和保真度变化)

Artifact Frequency (presence of visual noise, distortions)
频率(存在视觉噪声、失真)

Realism vs. Cartoon Aesthetic (balance of photorealism and abstraction)
现实主义与卡通美学(摄影现实主义和抽象的平衡)

Seed Consistency (output stability across multiple various seeds *sample images below all have the same seed)
种子一致性(多个不同种子的输出稳定性 * 下面的示例图像都具有相同的种子)

3. Results 结果

3.1 Results with trained Loras 经过训练的Loras的结果

3.2 Results with no Loras (base model only) 无Loras的结果(仅基础模型)

4 Findings & Parameter Effects 结果和参数影响

4.1 Unet Learning Rate  Unet学习率

Higher Unet LR values (0.0002–0.001) significantly increase stylization, often leading to texture destruction and less controlled details. Lower Unet LR values (0.00005–0.0001) keep outputs more subtle, maintaining finer details but requiring higher LoRA strength to have a noticeable impact.
较高的Unet LR值(0.0002-0.001)会显著增加风格化,通常会导致纹理破坏和较少的控制细节。较低的Unet LR值(0.00005-0.0001)使输出更加精细,保持更精细的细节,但需要更高的LoRA强度才能产生明显的影响。

4.2 Clip Skip  剪辑跳过

Higher Clip Skip values (3–4) remove the influence of text guidance almost entirely, instead prioritizing textures, color balance, and stylization. Lower values (1–2) preserve typography and finer print details, making them more effective for text-heavy generations.
较高的“剪辑跳过”值(3-4)几乎完全消除了文本指导的影响,而不是优先考虑纹理、颜色平衡和样式化。较低的值(1-2)保留排版和更精细的打印细节,使其对文本密集的生成更有效。

4.3 Network Dimension  4.3网络维度

Lower Network Dimension values (8–16) make LoRAs effective only at high strengths, requiring exaggerated weight application to be noticeable. Higher Network Dimension values (32–64) produce more aggressive LoRA effects, often necessitating lower strengths to avoid excessive influence over outputs.
较低的网络尺寸值(8-16)使LoRA仅在高强度下有效,需要夸大的重量应用才能引起注意。较高的网络维度值(32-64)会产生更积极的LoRA效应,通常需要较低的强度来避免对输出产生过度影响。

4.4 Learning Rate Schedulers 学习率调度器

“Cosine with restarts” introduces drastic jumps in effect at strength thresholds, making it useful for controlled variability. “Constant” keeps training stable but with limited flexibility in adaptation. “Cosine” tends to enhance 3D-like structures but results in unstable outputs across different seeds. “Linear” smooths out color transitions but can overly flatten contrast-heavy images.
“重启余弦”在强度阈值处引入了剧烈的跳跃,使其对受控的可变性很有用。“恒定”可保持训练稳定,但适应灵活性有限。“余弦”倾向于增强3D类结构,但导致不同种子的输出不稳定。“线性”平滑了颜色过渡,但可能会过度平坦化对比度高的图像。

4.5 Min SNR Gamma  最小SNR Gamma

Higher Min SNR Gamma values (10–20) enhance contrast and sharpness but tend to flatten color depth, reducing natural shading. Lower values (5) retain softer gradients and allow for more depth in complex lighting conditions.
较高的最小信噪比伽玛值(10-20)可增强对比度和锐度,但会使颜色深度变平,从而减少自然着色。较低的值(5)保留较柔和的渐变,并允许在复杂的照明条件下获得更大的深度。

4.6 Noise Offset  噪声偏移

Higher Noise Offset values (0.3–0.5) introduce grain and chaos, mimicking VHS/Polaroid textures and adding analog-style imperfections. Lower values (0.05–0.1) preserve clarity and retain finer textures without unwanted distortions.
较高的“噪波偏移”值(0.3-0.5)会引入颗粒和混乱,模仿VHS/Polaroid纹理并添加模拟风格的瑕疵。较低的值(0.05-0.1)可保持清晰度并保留较精细的纹理,而不会出现不必要的扭曲。

4.7 Network Alpha  网络α

Higher Network Alpha values (16–32) amplify LoRA influence even at low strengths, often overpowering realism with more aggressive stylistic imprints. Lower values (4–8) require higher LoRA strengths to manifest noticeable effects but maintain a more subtle impact on realism.
较高的网络Alpha值(16-32)即使在低强度下也会放大LoRA的影响力,通常会以更具侵略性的风格印记压倒现实主义。较低的值(4-8)需要较高的LoRA强度来表现出明显的效果,但对真实感的影响更微妙。

4.8 Optimizers 

AdamW8Bit provides predictable, controlled results, making it ideal for structured LoRA applications. Prodigy forces stronger stylization effects, leading to more chaotic analog textures and unpredictable outputs.
AdamW8Bit提供可预测、可控的结果,是结构化LoRA应用的理想选择。Prodigy强制更强的风格化效果,导致更混乱的模拟纹理和不可预测的输出。

4.9 Learning Rate Scheduler Number Cycles 学习率循环次数

Higher LR Scheduler cycles introduce extreme variation between epochs, allowing for more diverse stylistic shifts throughout training. Lower cycle values maintain a more consistent stylization across training steps.
更高的LR训练周期在不同时期之间引入了极端的变化,允许在整个训练过程中进行更多样化的风格转换。较低的循环值在训练步骤中保持更一致的风格化。

5. Practical Applications of Parameters 参数的实际应用

5.1 Artifacts & Clarity  人工制品和清晰度

Higher Noise Offset values increase grain, texture, and chaotic variation. Min SNR Gamma improves clarity and sharpness in outputs. Higher Clip Skip values can reduce artifacts but may also lower overall clarity.
较高的“噪波偏移”值会增加颗粒、纹理和混乱变化。最小SNR Gamma可提高输出的清晰度和锐度。较高的“剪辑跳过”值可以减少瑕疵,但也可能降低整体清晰度。

5.2 Realism vs. Cartoon Spectrum Shift 现实主义vs.卡通光谱转移

Higher Clip Skip values push results toward photorealism, while lower values make images more stylized and painterly. Higher Unet LR values soften outputs with artistic distortions. Lower Noise Offset values produce cleaner images, while higher values introduce a gritty, film-like look.
较高的“剪辑跳过”值会使结果更接近照片级真实感,而较低的值会使图像更具有风格化和绘画感。较高的Unet LR值会软化带有艺术失真的输出。较低的“噪波偏移”值会产生更清晰的图像,而较高的值会产生粗糙的胶片外观。

5.3 Seed Consistency & Unpredictability 种子一致性和不可预测性

“Cosine with restarts” LR Scheduler creates controlled unpredictability across generations. The Prodigy optimizer decreases consistency, increasing variation in outputs. Higher Unet LR values decrease seed consistency, leading to less predictable outputs. Lower Network Alpha values stabilize seed predictability by reducing LoRA dominance.
“重启余弦”LR迭代法创造了跨代的可控不可预测性。Prodigy优化器降低了一致性,增加了输出的变化。更高的Unet LR值会降低种子一致性,导致更不可预测的输出。较低的网络Alpha值通过降低LoRA优势来稳定种子的可预测性。

5.4 Overfitting vs. Generalization 过度拟合与泛化

Higher Network Dimension values encourage overfitting, reducing flexibility in LoRA adaptation. Higher Unet LR values can cause over-memorization, leading to less variability. Higher Clip Skip values can improve generalization, allowing models to extract broader stylistic features rather than overfitting to specifics.
更高的网络维度值会鼓励过度拟合,降低LoRA适应的灵活性。较高的Unet LR值可能会导致记忆过度,从而导致可变性降低。较高的“剪辑跳过”值可以改善泛化,允许模型提取更广泛的风格特征,而不是过度拟合细节。

5.5 Parameter Sensitivity (How Small Changes Impact Outputs) 参数敏感度(微小变化如何影响输出)

Higher Network Alpha values result in small adjustments causing large output shifts. Higher Min SNR Gamma stabilizes changes, making variations less extreme. Higher Noise Offset values increase chaotic elements, making outputs more sensitive to small adjustments.
较高的网络Alpha值会导致小的调整,从而导致大的输出偏移。较高的Min SNR Gamma可稳定变化,使变化不那么极端。较高的“噪波偏移”值会增加混乱元素,使输出对微小调整更加敏感。

5.6 Fine Detail Retention 精细细节保留

Higher Min SNR Gamma values improve fine detail preservation. Excessively high Network Dimension values can cause loss of finer details. Lower Unet LR values help maintain sharpness and structural integrity.
较高的Min SNR Gamma值可改善精细细节保留。过高的网络尺寸值可能会导致丢失更精细的细节。较低的Unet LR值有助于保持清晰度和结构完整性。

5.7 Contrast & Tonal Shifts 对比度和色调变化

Higher Noise Offset values wash out tonal depth and flatten colors. Higher Min SNR Gamma values create stronger contrast, deepening shadows and enhancing highlights. The Prodigy optimizer produces harsher, more exaggerated contrast shifts.
较高的“噪波偏移”值会冲淡色调深度并使颜色变平。较高的最小SNR Gamma值可创建更强的对比度,加深阴影并增强高光。Prodigy优化器产生更严厉,更夸张的对比度变化。

5.8 Stylization vs. Photorealism 风格化与照相现实主义

Higher Clip Skip values push toward photorealism, while lower values lean into stylization. Higher Network Dimension values increase stylistic influence and exaggeration. Higher Unet LR values soften images, creating a more dreamlike, impressionistic aesthetic.
较高的“剪辑跳过”值会推动照片现实主义,而较低的值则倾向于风格化。较高的“网络尺寸”值会增加风格影响和夸张效果。更高的Unet LR值可以软化图像,创造出更梦幻、更印象派的美感。

6. Conclusion 结论

Fine-tuning individual values such as Clip Skip, Unet LR, and Noise Offset enables targeted control over stylization, realism, and text fidelity. Future studies will expand on testing parameters individually, multi-LoRA blending, and dataset balancing.
微调各个值(如“剪辑跳过”、“Unet LR”和“噪波偏移”)可实现对样式化、真实感和文本保真度的目标控制。未来的研究将扩展单独测试参数,多LoRA混合和数据集平衡。

人工智能与LLMs自我复制能力:娱乐媒体行业的未来变革

随着人工智能技术的飞速发展,尤其是大型语言模型(LLMs)的不断进步,娱乐媒体行业正迎来一场前所未有的变革。LLMs的自我复制能力更是为这一变革增添了无限可能,它不仅将改变内容创作的方式,还将重塑整个娱乐媒体行业的生态。

1. 音乐创作:从辅助到自主

在音乐领域,LLMs的自我复制能力将极大地提升音乐创作的效率和多样性。LLMs可以通过分析海量的音乐作品,学习不同风格的旋律、节奏和和声结构,从而生成与人类作曲家风格相似的音乐作品。例如,AI音乐平台如DeepMusic和天工SkyMusic已经能够一键生成广播质量级别的音乐。未来,LLMs的自我复制能力将进一步优化这些生成过程,甚至可能实现完全自主的音乐创作,为音乐产业注入新的活力。

2. 游戏开发:更智能的体验

在游戏行业,LLMs的自我复制能力将为游戏开发带来新的可能性。AI技术已经广泛应用于游戏策划、剧情创作、音频制作、图像和动画制作等环节,显著提高了游戏制作效率。例如,《黑神话:悟空》制作团队通过与多家厂商合作,融合了多重AI技术,打造了逼真的场景和华丽的视觉效果。未来,LLMs的自我复制能力将进一步提升游戏中的NPC(非玩家控制角色)的智能反应能力,使它们能够根据玩家的行为进行更自然的互动,从而实现更加沉浸的游戏体验。

3. 内容创作:创意与效率的双重提升

LLMs的自我复制能力将为内容创作带来革命性的变化。在影视产业中,LLMs可以分析大量的剧本数据,找出市场上最受欢迎的剧本结构、情节走向和人物设定,为编剧提供创作灵感和参考。例如,AI编剧“Benjamin”已经成功创作了科幻短片《Sunspring》,展示了AI在剧本创作中的潜力。未来,LLMs的自我复制能力将进一步提升剧本创作的效率,甚至能够根据观众的反馈实时调整剧情发展,提升观众的沉浸感。

4. 个性化推荐:更懂你的娱乐体验

LLMs的自我复制能力将进一步优化个性化推荐系统。主流的娱乐流媒体平台,如Netflix、YouTube和腾讯视频,已经利用AI技术为用户提供定制化的观影和听歌推荐。未来,LLMs的自我复制能力将使这些推荐系统更加精准,能够根据用户的情绪、时间段、甚至天气等外部环境因素,推送最适合的内容。这种高度个性化的互动将极大地提升用户的满意度和平台的竞争力。

5. 虚拟现实与增强现实:沉浸式体验的升级

结合LLMs和虚拟现实(VR)、增强现实(AR)技术,娱乐媒体行业将为用户带来更加沉浸式的体验。例如,虚拟演唱会、VR电影等新兴娱乐形式已经在市场上崭露头角。未来,LLMs的自我复制能力将进一步优化这些沉浸式体验,通过生成更加逼真的虚拟场景和角色,让用户仿佛置身于一个全新的世界。

总结

LLMs的自我复制能力将为娱乐媒体行业带来深远的影响。它不仅将提升内容创作的效率和质量,还将推动娱乐体验的个性化和沉浸式发展。然而,这一技术的广泛应用也带来了新的挑战,如版权归属、数据隐私和安全等问题。因此,娱乐媒体行业需要在技术进步的同时,加强伦理和安全方面的研究与监管,以确保技术的健康发展。

随着LLMs技术的不断进步,娱乐媒体行业的未来充满了无限可能。我们期待看到更多创新的应用和体验,同时也希望行业能够在技术与伦理之间找到平衡,推动整个行业向更加智能化、个性化和高效化的方向发展。

延申阅读:https://www.livescience.com/technology/artificial-intelligence/ai-can-now-replicate-itself-a-milestone-that-has-experts-terrified 人工智能现在可以自我复制–这是一个让专家们感到恐惧的里程碑

以上仅仅是畅想LLMS积极的一面对行业的影响,更多负面影响让人细思极恐。这个世界不是非黑即白的,有很多灰色地带我们一无所知,因为人这个物种的特点贪婪、不满于现状,创造了美好,也会因为这一弱点将人类拉入另一个生命维度。

AI自主复制能力既是文明跃升的钥匙,也可能是自我毁灭的按钮。其终极影响不取决于技术本身,而在于人类能否在技术失控前建立全球协作的治理体系,并在哲学层面重新定义「人类与智能的关系」。这一挑战的难度,不亚于人类第一次学会控制火种——稍有不慎,便会引火烧身。

Deepseek R1