CU 解惑汇总

在ComfyUI中 K采样器 种⼦ / 采样器 /调度器分别是什么意思 简单来说,你可以把⽣成图像想象成⼀场 “从混沌中雕刻出形象” 的过程: 下⾯我们详细分解这三个概念。 1. 种⼦ (Seed) 2. 采样器 (Sampler) 种⼦:决定了雕刻的起始材料(⼀块怎样的⼤理⽯)。 采样器:是雕刻家的技法(不同的⼑法和步骤)。 调度器:是雕刻家的⼯作计划表(决定每⼀步下⼑的轻重缓急)。 是什么? ⼀个数字(通常是随机⽣成的)。它是⽣成所有随机过程的起点。 它做了什么? 在⽣成开始时,模型需要⼀张充满随机噪声的图像作为起点。 种⼦ 值就决定了这张初始噪声图的 具体样⼦。 为什么它重要? 可复现性:如果你使⽤相同的模型、参数、提⽰词和种⼦,你将会得到⼏乎完全相同的图像。这是重现你 喜欢的结果的关键。 微调变化:保持其他所有参数不变,只改变种⼦(⽐如+1),将会产⽣⼀个在构图、细节上略有不同但整 体⻛格和主题⼀致的“变体”。这是探索同⼀主题不同可能性的好⽅法。 如何使⽤? 设为 0 或留空:每次都会使⽤⼀个随机种⼦,产⽣完全不同的结果。 固定⼀个数字:⽤于重现某次结果。 使⽤ “增量种⼦” 节点:⾃动批量⽣成⼀系列种⼦变化的图像。 是什么? ⼀种数学算法。它的任务是执⾏“去噪”的核⼼⼯作,即⼀步步地将初始噪声预测并转换成⼀幅清晰 的图像。 它做了什么? 采样器决定了如何计算每⼀步的去噪过程。不同的采样器使⽤不同的数学⽅法来求解去噪⽅程。 常⻅的采样器及特点: Euler :简单、快速,但可能缺乏⼀些细节。适合快速草图。 Euler a (Ancestral):带有随机性。即使种⼦固定,每次⽣成也可能有细微变化,能产⽣更多样化的结 果。

3. 调度器 (Scheduler) 三者的协同⼯作流程 在ComfyUI的 KSampler 节点中,这三者如何配合: 所以,下次当您看到ComfyUI从⼀张“雪花图”开始⽣成图像时,您就知道,它正在上演⼀场从完全混沌(随机噪 声) 到⾼度秩序(精美图像) 的魔法。 DPM++ 2M Karras :当前最受欢迎的全能选⼿之⼀。通常在质量和速度之间有很好的平衡,能产⽣丰富细 节。 DDIM :较⽼的采样器,速度较快,但效果通常不如新式采样器。 UniPC :速度很快,只需15-20步就能达到不错的效果。 如何选择? 没有绝对的最佳答案。 DPM++ 2M Karras 或 DPM++ 3M SDE 通常是很好的起点。最佳⽅式是⽤同 ⼀组参数测试不同采样器,观察你喜欢哪种⻛格。 是什么? 它控制着去噪的节奏和强度,即“在每⼀步中,应该去除多少噪声”。 它做了什么? 你可以把它想象成采样器算法的“⽇程表”。它决定了每⼀步的噪声强度( sigma 值)如何变 化。 常⻅的调度器及特点: Normal :线性或均匀地去噪。 Karras :⾮常常⽤。它会在去噪过程的开始和结束时采⽤较小的步⻓,在中间采⽤较⼤的步⻓。这通常能 产⽣更清晰、更详细的图像。 Simple / Exponential :等其他策略。 调度器与采样器的关系:许多采样器有与其名称配套的调度器建议。例如, DPM++ 2M Karras 这个采样器名称 中的 Karras 就已经指定了它最好与 Karras 调度器搭配使⽤。在ComfyUI中,如果你选择了这类采样器,调 度器通常会⾃动灰显或匹配,⽆需⼿动更改。 1. 初始化:你设置好⼀个 种⼦ ,KSampler根据它⽣成⼀张唯⼀的初始噪声图。 2. 计划:你选择⼀个 采样器 (如 DPM++ 2M ) 和⼀个 调度器 (如 Karras )。调度器规划好总共20步中,每⼀步的 噪声强度。 3. 执⾏: 第1步:采样器算法读取初始噪声(雪花屏)和⽂本条件,根据调度器为第1步计划的噪声强度,计算并去除⼀ 部分噪声。 第2步:采样器在上⼀步的结果基础上,根据调度器为第2步计划的(不同的)噪声强度,再次计算并去噪。 ...重复此过程... 第20步:采样器执⾏最后⼀步去噪,输出⼀张在潜在空间中清晰的图像,然后交给VAE解码为最终图⽚。

实践建议总结 参数 作⽤ 新⼿建议 进阶技巧 种⼦ 控制随机性 起点 先随机,遇到喜欢的结果就固定种⼦再 微调其他参数。 使⽤“增量种⼦”批量⽣成变体。 采样器 决定去噪算 法 从 DPM++ 2M Karras 开始尝试。 测试不同采样器,找到最适合你当前模型 和主题的哪⼀个。 调度器 控制去噪节 奏 通常与采样器绑定,⽆需单独调整。 了解不同调度器的噪声计划策略,⽤于极 端精细化控制。 迭代步 数 去噪步骤总 数 20-30步是甜点区。步数太少细节不⾜, 太多收益递减。 某些采样器(如UniPC)可能只需15步就 能达到很好效果。 为DDPM+VAE产⽣了LDM? LDM的解决⽅案: Checkpoints模型的训练,主要是训练的那部分数据DDPM或Unet或VAE? Checkpoint(检查点)模型主要训练的是U-Net。 让我来详细解释为什么,以及各个组件在训练中的⻆⾊: 核⼼答案 ✅ 主要训练:U-Net ❌ 通常冻结:VAE ❌ 完全冻结:CLIP⽂本编码器 Stable Diffusion模型发展 具体模型 核⼼特性 商⽤许可规则 ⽹址 SD 1.5 轻量架构(8.6 亿参数),6GB 显存可 运⾏,⽣态丰富(海量 CreativeML OpenRAIL-M:完全允 许商⽤,⽆收⼊⻔槛;企业年收⼊超 5 万美元建议购商业许可获法律保障 Stability ⽤VAE把图像压缩到64x64的潜在空间 在这个压缩空间中运⾏DDPM算法 计算量减少约98% 最后⽤VAE解码器还原到⾼清图像 Error parsing Mermaid diagram! Cannot read properties of null (reading getBoundingClientRect)

具体模型 核⼼特性 商⽤许可规则 ⽹址 LoRA/Checkpoint),纹理学习能⼒ 强 SD XL (1.0/Turbo) 双⽂本编码器(OpenCLIP ViT- bigG+CLIP ViT-L/14)+Refiner 精炼 模型,1024×1024 原⽣分辨率,混合 ⻛格还原度⾼ 社区版(OpenRAIL++):年收⼊ ≤100 万美元免费商⽤;企业版(年 费 600 美元起)含法律保障;Turbo 版⾮商⽤默认,商⽤需单独授权 Stability 版本更迭 Flux模型的发展 早期版本(V1.1 - V1.4):2022 年 8 ⽉,CompVis 发布了 Stable Diffusion 最早版本 V1.1,其基于 Latent Diffusion 开发,具备⽂本到图像和 inpainting 功能。随后,CompVis 相继发布 V1.2、V1.3、V1.4 版本。这 ⼏个版本不断增加训练步骤,提升输出质量,如 V1.2 使⽤ 512x512 分辨率训练 515,000 步,V1.3 在 V1.2 基 础上增加了 195,000 个步骤,V1.4 以 512x512 分辨率和 laion - aesthetics v2 5 + 数据集进⾏了 225,000 步训 练。 V1.5 版本:2022 年 10 ⽉,RunwayML 发布了 Stable Diffusion 1.5,该版本是 1.2 的增强版,使⽤ laion - aesthetics v2 5 + 数据集,以 512x512 分辨率训练了 595,000 步,成为最⼴泛使⽤的微调版本。 V2.0 和 V2.1 版本:2022 年 11 ⽉,Stability AI 发布了 Stable Diffusion 2.0,最初在 256x256 分辨率下进⾏ 了 550,000 步训练,随后在 512x512 分辨率下进⾏了 850,000 步训练,并在 768x768 分辨率下进⼀步微调了 150,000 步。12 ⽉发布的 2.1 版本是 2.0 的微调版本,增加了 55,000 个步骤和额外的 155,000 个微调步骤。 SDXL 系列版本:2023 年 6 ⽉发布 SDXL 0.9 基础版 / 精调版,成像质量相对较低。之后 SDXL 1.0 base/refiner 正式发布,具有卓越的⽂本理解和图像⽣成功能。SDXL V1.0 Beta 2.2.2 仅通过 Stability AI 开 发者平台的 API 接口独家提供,是 SDXL 模型的微调迭代版本。此外,还有 Stable Image Core,它是 SDXL 的微调版本,只能通过 Stability AI 开发者平台上的 v2 应⽤程序接口访问。 V1.6 版本:2023 年 11 ⽉在 Stability AI 开发者平台发布,它不是开源模型,只能通过 Stability AI 开发者平 台的 v1 API 使⽤。 SDXL Turbo 版本:2023 年 11 ⽉推出,利⽤潜在⼀致性模型(LCM)将⽣成步骤从通常的 30 - 40 步减少到 1 - 4 步,⽣成速度⼤幅提升。 Stable Zero 123 版本:2023 年 12 ⽉发布,主要功能是通过单张图像⽣成 3D 物体,并提供包括物体背⾯在内 的多个视图。 Stable Diffusion Cascade 版本:2024 年 2 ⽉,Stability AI 推出了 Stable Diffusion Cascade,它采⽤三阶 段⽣成流程(ABC 阶段),以更⾼的效率⽣成⾼质量图像。 V3 版本:Stable Diffusion 3 于 2024 年 2 ⽉预览,并于 2024 年 4 ⽉通过 API 发布,2024 年 6 ⽉开放开源模 型,为各种图像⽣成任务提供了卓越的性能。

具体模型 核⼼特性 商⽤许可规则 ⽹址 Flux.1 (Pro/Schnell/Dev) FLUX.1 Krea ⽣成步数 8-16 步(⽐ SD 快 3-5 倍), 120 亿参数混合 Transformer,⼿部 / 材质细节精度⾼(⼿部正确⽣成率 92… Pro:30 美元 / ⽉ / 席位 (Invoke 平台),完全商 ⽤; Schnell(Apache 2.0):免 费商⽤ + 本地部署; Dev:仅限⾮商⽤ Flux Flux Kontext 上下⽂感知能⼒,多轮编辑⻆⾊⼀致性 (94.7%),⽀持像素级局部修改、动态 分辨率(256×256-2048×2048) Pro:API 调⽤ 0.05 美元 / 张; Max(企业版):20 万美元 / 年(⽉⽣成超 10 万张); Dev:遵循⾮商业许可,免 费开放给个⼈创作者,仅限 ⾮商业⽤途,如研究、学习 等。 Schnell(Apache 2.0):暂 未发布 Kontext 初始发布与版本架构 性能优化与功能扩展 Qwen image模型发展 具体模型 核⼼特性 商⽤许可规则 ⽹址 Qwen ⽀持 128K ⻓上下⽂,Qwen-VL(图⽂问答)、 Qwen2.5-Coder(92 种语⾔代码⽣成)、 Qwen2.5-Math(数学推理) 开源版(Apache 2.0):免费商⽤ + 本地部署; 商业 API 版:按调⽤量计费(⽂ 本 0.0004 元 / 千 token); 企业定制版:单独洽谈 千问 ⽣图 2024 年 8 ⽉ 1 ⽇,Black Forest Labs 正式成⽴并发布了 Flux.1 ⽂本⽣成图像模型套件。Flux.1 拥有 120 亿 参数,采⽤了 “多模态和平⾏扩散 Transformer 块的混合架构”,融合了流匹配和其他优化技术。 Flux.1 提供了三个版本: Pro 版本通过 API 提供,是最强⼤的闭源版本,适⽤于商业应⽤; Dev 版本是开源的⾮商业许可版本,从 Pro 版本 “蒸馏” 而来,可在 HuggingFace 上获取; Schnell 版本是速度最快的精简版本,采⽤ Apache 2 许可,同样开源,适⽤于本地开发和个⼈使⽤。 2024 年 10 ⽉ 3 ⽇,Black Forest Labs 推出了 Flux 1.1 Pro,代号 “blueberry”。该版本在图像⽣成速度上 是 Flux 1 Pro 的 6 倍,且⽣成图⽚质量更⾼、更合规、更多样。在与 Ideogram v2 和 Midjourney v6.1 等竞 争对⼿的基准⽐较中,Flux 1.1 Pro 在⼤多数指标上表现更好,特别是在提⽰遵循和连贯性⽅⾯。 2025 年 5 ⽉,Black Forest Labs 推出了 Flux.1 Kontext 系列图像模型。该模型同时接受⽂本和图像提⽰,⽀ 持⽤⼾基于参考图像进⾏创作,并使⽤简单的语⾔进⾏编辑,⽆需通过微调或使⽤多 ControlNet 的复杂⼯作 流。

具体模型 核⼼特性 商⽤许可规则 ⽹址 Qwen IMAGE EDIT 双路径编辑(语义 + 外观控制),中英⽂本增删 改(字体复刻)、像素级局部修改,多轮编辑视 觉偏差<5% 开源版(Apache 2.0):免费商 ⽤; 商业 API 版:0.03 美元 / 张;企业 定制版:15 万美元 / 年(⽉⽣成 超 5 万张) 千问 编辑 Qwen-Image 是阿⾥通义千问系列中⾸个图像⽣成基础模型,于 2025 年 8 ⽉ 5 ⽇正式开源。 Qwen-Image 拥有 200 亿参数,采⽤多模态扩散 Transformer(MMDiT)架构,⽀持中英双语。该模型专注于 提升 AI 在复杂的⽂本渲染与精准的图像编辑两⼤核⼼场景的能⼒。在⽂本渲染⽅⾯,Qwen-Image 在 LongText- Bench、ChineseWord、TextCraft 等权威基准测试中⼤幅领先同类模型,中⽂准确率⾼达 89%,⽐主流模型⾼ 出 47 个百分点,还⽀持多⾏布局、段落级⽂本⽣成和细粒度细节呈现。在图像编辑⽅⾯,其⽀持⻛格迁移、物体 增删、细节增强、⽂字编辑、⼈物姿态调整等多种操作,且能在编辑过程中保持视觉⼀致性和语义连贯性。 通义千问团队在多个公开基准上对 Qwen-Image 进⾏了全⾯评估,包括⽤于通⽤图像⽣成的 GenEval、DPG 和 OneIG-Bench,以及⽤于图像编辑的 GEdit、ImgEdit 和 GSO,在多数基准测试中均取得了较先进的性能。 提⽰词发展 Qwen Image(通义千问图像⽣成模型)作为阿⾥达摩院推出的多模态模型,其提⽰词书写有显著的 “中⽂友好” 和 “⽂本 - 图像联动” 特性,核⼼技巧围绕中⽂语义精准传递、⽂本元素控制、⻛格融合三⼤⽅向展开。 维度 Stable Diffusion Flux Qwen Image 语⾔偏好 英⽂关键词主导,中⽂⽀持弱 英⽂⾃然句为主,中⽂适配 ⼀般 中⽂优先,⽀持复杂中⽂语义 结构逻辑 关键词堆砌(主体 + 细节 + ⻛格 标签) ⾃然短句(场景逻辑 + 元素 关系) 中⽂⾃然描述(可含⽂本排版 指令) 术语依赖 强依赖 “8k”“render” 等技 术标签 弱化术语,依赖场景语义推 断 平衡术语与⾃然描述,中⽂术 语友好 复杂场景处 理 易混乱,需逐⼀标注元素关系 ⾃动解析元素逻辑,⽀持⻓ 句描述 ⽀持中⽂复合场景,⽂本元素 可控 特性 “旧世代”模型 (SD1.5, SDXL) “新世代”模型 (SD3, FLUX.1, Qwen2-VL) ComfyUI 节点 空Latent图像 空Latent图像(SD3) 潜在空间通道 4通道 16通道 技术⽐喻 .zip 压缩格式 .rar/.7z 压缩格式 主要优势 兼容性强,⽣态成熟 潜在空间信息密度更⾼,重建图像更保真