CU 解惑汇总

在ComfyUI中 K采样器种⼦ / 采样器 /调度器分别是什么意思简单来说，你可以把⽣成图像想象成⼀场 “从混沌中雕刻出形象” 的过程：下⾯我们详细分解这三个概念。 1. 种⼦ (Seed) 2. 采样器 (Sampler) 种⼦：决定了雕刻的起始材料（⼀块怎样的⼤理⽯）。采样器：是雕刻家的技法（不同的⼑法和步骤）。调度器：是雕刻家的⼯作计划表（决定每⼀步下⼑的轻重缓急）。是什么？⼀个数字（通常是随机⽣成的）。它是⽣成所有随机过程的起点。它做了什么？在⽣成开始时，模型需要⼀张充满随机噪声的图像作为起点。种⼦值就决定了这张初始噪声图的具体样⼦。为什么它重要？可复现性：如果你使⽤相同的模型、参数、提⽰词和种⼦，你将会得到⼏乎完全相同的图像。这是重现你喜欢的结果的关键。微调变化：保持其他所有参数不变，只改变种⼦（⽐如+1），将会产⽣⼀个在构图、细节上略有不同但整体⻛格和主题⼀致的“变体”。这是探索同⼀主题不同可能性的好⽅法。如何使⽤？设为 0 或留空：每次都会使⽤⼀个随机种⼦，产⽣完全不同的结果。固定⼀个数字：⽤于重现某次结果。使⽤ “增量种⼦” 节点：⾃动批量⽣成⼀系列种⼦变化的图像。是什么？⼀种数学算法。它的任务是执⾏“去噪”的核⼼⼯作，即⼀步步地将初始噪声预测并转换成⼀幅清晰的图像。它做了什么？采样器决定了如何计算每⼀步的去噪过程。不同的采样器使⽤不同的数学⽅法来求解去噪⽅程。常⻅的采样器及特点： Euler ：简单、快速，但可能缺乏⼀些细节。适合快速草图。 Euler a (Ancestral)：带有随机性。即使种⼦固定，每次⽣成也可能有细微变化，能产⽣更多样化的结果。

3. 调度器 (Scheduler) 三者的协同⼯作流程在ComfyUI的 KSampler 节点中，这三者如何配合：所以，下次当您看到ComfyUI从⼀张“雪花图”开始⽣成图像时，您就知道，它正在上演⼀场从完全混沌（随机噪声）到⾼度秩序（精美图像）的魔法。 DPM++ 2M Karras ：当前最受欢迎的全能选⼿之⼀。通常在质量和速度之间有很好的平衡，能产⽣丰富细节。 DDIM ：较⽼的采样器，速度较快，但效果通常不如新式采样器。 UniPC ：速度很快，只需15-20步就能达到不错的效果。如何选择？没有绝对的最佳答案。 DPM++ 2M Karras 或 DPM++ 3M SDE 通常是很好的起点。最佳⽅式是⽤同⼀组参数测试不同采样器，观察你喜欢哪种⻛格。是什么？它控制着去噪的节奏和强度，即“在每⼀步中，应该去除多少噪声”。它做了什么？你可以把它想象成采样器算法的“⽇程表”。它决定了每⼀步的噪声强度（ sigma 值）如何变化。常⻅的调度器及特点： Normal ：线性或均匀地去噪。 Karras ：⾮常常⽤。它会在去噪过程的开始和结束时采⽤较小的步⻓，在中间采⽤较⼤的步⻓。这通常能产⽣更清晰、更详细的图像。 Simple / Exponential ：等其他策略。调度器与采样器的关系：许多采样器有与其名称配套的调度器建议。例如， DPM++ 2M Karras 这个采样器名称中的 Karras 就已经指定了它最好与 Karras 调度器搭配使⽤。在ComfyUI中，如果你选择了这类采样器，调度器通常会⾃动灰显或匹配，⽆需⼿动更改。 1. 初始化：你设置好⼀个种⼦，KSampler根据它⽣成⼀张唯⼀的初始噪声图。 2. 计划：你选择⼀个采样器 (如 DPM++ 2M ) 和⼀个调度器 (如 Karras )。调度器规划好总共20步中，每⼀步的噪声强度。 3. 执⾏：第1步：采样器算法读取初始噪声(雪花屏)和⽂本条件，根据调度器为第1步计划的噪声强度，计算并去除⼀部分噪声。第2步：采样器在上⼀步的结果基础上，根据调度器为第2步计划的（不同的）噪声强度，再次计算并去噪。 ...重复此过程... 第20步：采样器执⾏最后⼀步去噪，输出⼀张在潜在空间中清晰的图像，然后交给VAE解码为最终图⽚。

实践建议总结参数作⽤新⼿建议进阶技巧种⼦控制随机性起点先随机，遇到喜欢的结果就固定种⼦再微调其他参数。使⽤“增量种⼦”批量⽣成变体。采样器决定去噪算法从 DPM++ 2M Karras 开始尝试。测试不同采样器，找到最适合你当前模型和主题的哪⼀个。调度器控制去噪节奏通常与采样器绑定，⽆需单独调整。了解不同调度器的噪声计划策略，⽤于极端精细化控制。迭代步数去噪步骤总数 20-30步是甜点区。步数太少细节不⾜，太多收益递减。某些采样器（如UniPC）可能只需15步就能达到很好效果。为DDPM+VAE产⽣了LDM? LDM的解决⽅案： Checkpoints模型的训练,主要是训练的那部分数据DDPM或Unet或VAE? Checkpoint（检查点）模型主要训练的是U-Net。让我来详细解释为什么，以及各个组件在训练中的⻆⾊：核⼼答案 ✅ 主要训练：U-Net ❌ 通常冻结：VAE ❌ 完全冻结：CLIP⽂本编码器 Stable Diffusion模型发展具体模型核⼼特性商⽤许可规则⽹址 SD 1.5 轻量架构（8.6 亿参数），6GB 显存可运⾏，⽣态丰富（海量 CreativeML OpenRAIL-M：完全允许商⽤，⽆收⼊⻔槛；企业年收⼊超 5 万美元建议购商业许可获法律保障 Stability ⽤VAE把图像压缩到64x64的潜在空间在这个压缩空间中运⾏DDPM算法计算量减少约98% 最后⽤VAE解码器还原到⾼清图像 Error parsing Mermaid diagram! Cannot read properties of null (reading getBoundingClientRect)

具体模型核⼼特性商⽤许可规则⽹址 LoRA/Checkpoint），纹理学习能⼒强 SD XL （1.0/Turbo）双⽂本编码器（OpenCLIP ViT- bigG+CLIP ViT-L/14）+Refiner 精炼模型，1024×1024 原⽣分辨率，混合⻛格还原度⾼社区版（OpenRAIL++）：年收⼊ ≤100 万美元免费商⽤；企业版（年费 600 美元起）含法律保障；Turbo 版⾮商⽤默认，商⽤需单独授权 Stability 版本更迭 Flux模型的发展早期版本（V1.1 - V1.4）：2022 年 8 ⽉，CompVis 发布了 Stable Diffusion 最早版本 V1.1，其基于 Latent Diffusion 开发，具备⽂本到图像和 inpainting 功能。随后，CompVis 相继发布 V1.2、V1.3、V1.4 版本。这⼏个版本不断增加训练步骤，提升输出质量，如 V1.2 使⽤ 512x512 分辨率训练 515,000 步，V1.3 在 V1.2 基础上增加了 195,000 个步骤，V1.4 以 512x512 分辨率和 laion - aesthetics v2 5 + 数据集进⾏了 225,000 步训练。 V1.5 版本：2022 年 10 ⽉，RunwayML 发布了 Stable Diffusion 1.5，该版本是 1.2 的增强版，使⽤ laion - aesthetics v2 5 + 数据集，以 512x512 分辨率训练了 595,000 步，成为最⼴泛使⽤的微调版本。 V2.0 和 V2.1 版本：2022 年 11 ⽉，Stability AI 发布了 Stable Diffusion 2.0，最初在 256x256 分辨率下进⾏了 550,000 步训练，随后在 512x512 分辨率下进⾏了 850,000 步训练，并在 768x768 分辨率下进⼀步微调了 150,000 步。12 ⽉发布的 2.1 版本是 2.0 的微调版本，增加了 55,000 个步骤和额外的 155,000 个微调步骤。 SDXL 系列版本：2023 年 6 ⽉发布 SDXL 0.9 基础版 / 精调版，成像质量相对较低。之后 SDXL 1.0 base/refiner 正式发布，具有卓越的⽂本理解和图像⽣成功能。SDXL V1.0 Beta 2.2.2 仅通过 Stability AI 开发者平台的 API 接口独家提供，是 SDXL 模型的微调迭代版本。此外，还有 Stable Image Core，它是 SDXL 的微调版本，只能通过 Stability AI 开发者平台上的 v2 应⽤程序接口访问。 V1.6 版本：2023 年 11 ⽉在 Stability AI 开发者平台发布，它不是开源模型，只能通过 Stability AI 开发者平台的 v1 API 使⽤。 SDXL Turbo 版本：2023 年 11 ⽉推出，利⽤潜在⼀致性模型（LCM）将⽣成步骤从通常的 30 - 40 步减少到 1 - 4 步，⽣成速度⼤幅提升。 Stable Zero 123 版本：2023 年 12 ⽉发布，主要功能是通过单张图像⽣成 3D 物体，并提供包括物体背⾯在内的多个视图。 Stable Diffusion Cascade 版本：2024 年 2 ⽉，Stability AI 推出了 Stable Diffusion Cascade，它采⽤三阶段⽣成流程（ABC 阶段），以更⾼的效率⽣成⾼质量图像。 V3 版本：Stable Diffusion 3 于 2024 年 2 ⽉预览，并于 2024 年 4 ⽉通过 API 发布，2024 年 6 ⽉开放开源模型，为各种图像⽣成任务提供了卓越的性能。

具体模型核⼼特性商⽤许可规则⽹址 Flux.1 （Pro/Schnell/Dev） FLUX.1 Krea ⽣成步数 8-16 步（⽐ SD 快 3-5 倍）， 120 亿参数混合 Transformer，⼿部 / 材质细节精度⾼（⼿部正确⽣成率 92… Pro：30 美元 / ⽉ / 席位（Invoke 平台），完全商⽤； Schnell（Apache 2.0）：免费商⽤ + 本地部署； Dev：仅限⾮商⽤ Flux Flux Kontext 上下⽂感知能⼒，多轮编辑⻆⾊⼀致性（94.7%），⽀持像素级局部修改、动态分辨率（256×256-2048×2048） Pro：API 调⽤ 0.05 美元 / 张； Max（企业版）：20 万美元 / 年（⽉⽣成超 10 万张）； Dev：遵循⾮商业许可，免费开放给个⼈创作者，仅限⾮商业⽤途，如研究、学习等。 Schnell（Apache 2.0）：暂未发布 Kontext 初始发布与版本架构性能优化与功能扩展 Qwen image模型发展具体模型核⼼特性商⽤许可规则⽹址 Qwen ⽀持 128K ⻓上下⽂，Qwen-VL（图⽂问答）、 Qwen2.5-Coder（92 种语⾔代码⽣成）、 Qwen2.5-Math（数学推理）开源版（Apache 2.0）：免费商⽤ + 本地部署；商业 API 版：按调⽤量计费（⽂本 0.0004 元 / 千 token）；企业定制版：单独洽谈千问⽣图 2024 年 8 ⽉ 1 ⽇，Black Forest Labs 正式成⽴并发布了 Flux.1 ⽂本⽣成图像模型套件。Flux.1 拥有 120 亿参数，采⽤了 “多模态和平⾏扩散 Transformer 块的混合架构”，融合了流匹配和其他优化技术。 Flux.1 提供了三个版本： Pro 版本通过 API 提供，是最强⼤的闭源版本，适⽤于商业应⽤； Dev 版本是开源的⾮商业许可版本，从 Pro 版本 “蒸馏” 而来，可在 HuggingFace 上获取； Schnell 版本是速度最快的精简版本，采⽤ Apache 2 许可，同样开源，适⽤于本地开发和个⼈使⽤。 2024 年 10 ⽉ 3 ⽇，Black Forest Labs 推出了 Flux 1.1 Pro，代号 “blueberry”。该版本在图像⽣成速度上是 Flux 1 Pro 的 6 倍，且⽣成图⽚质量更⾼、更合规、更多样。在与 Ideogram v2 和 Midjourney v6.1 等竞争对⼿的基准⽐较中，Flux 1.1 Pro 在⼤多数指标上表现更好，特别是在提⽰遵循和连贯性⽅⾯。 2025 年 5 ⽉，Black Forest Labs 推出了 Flux.1 Kontext 系列图像模型。该模型同时接受⽂本和图像提⽰，⽀持⽤⼾基于参考图像进⾏创作，并使⽤简单的语⾔进⾏编辑，⽆需通过微调或使⽤多 ControlNet 的复杂⼯作流。

具体模型核⼼特性商⽤许可规则⽹址 Qwen IMAGE EDIT 双路径编辑（语义 + 外观控制），中英⽂本增删改（字体复刻）、像素级局部修改，多轮编辑视觉偏差＜5% 开源版（Apache 2.0）：免费商⽤；商业 API 版：0.03 美元 / 张；企业定制版：15 万美元 / 年（⽉⽣成超 5 万张）千问编辑 Qwen-Image 是阿⾥通义千问系列中⾸个图像⽣成基础模型，于 2025 年 8 ⽉ 5 ⽇正式开源。 Qwen-Image 拥有 200 亿参数，采⽤多模态扩散 Transformer（MMDiT）架构，⽀持中英双语。该模型专注于提升 AI 在复杂的⽂本渲染与精准的图像编辑两⼤核⼼场景的能⼒。在⽂本渲染⽅⾯，Qwen-Image 在 LongText- Bench、ChineseWord、TextCraft 等权威基准测试中⼤幅领先同类模型，中⽂准确率⾼达 89%，⽐主流模型⾼出 47 个百分点，还⽀持多⾏布局、段落级⽂本⽣成和细粒度细节呈现。在图像编辑⽅⾯，其⽀持⻛格迁移、物体增删、细节增强、⽂字编辑、⼈物姿态调整等多种操作，且能在编辑过程中保持视觉⼀致性和语义连贯性。通义千问团队在多个公开基准上对 Qwen-Image 进⾏了全⾯评估，包括⽤于通⽤图像⽣成的 GenEval、DPG 和 OneIG-Bench，以及⽤于图像编辑的 GEdit、ImgEdit 和 GSO，在多数基准测试中均取得了较先进的性能。提⽰词发展 Qwen Image（通义千问图像⽣成模型）作为阿⾥达摩院推出的多模态模型，其提⽰词书写有显著的 “中⽂友好” 和 “⽂本 - 图像联动” 特性，核⼼技巧围绕中⽂语义精准传递、⽂本元素控制、⻛格融合三⼤⽅向展开。维度 Stable Diffusion Flux Qwen Image 语⾔偏好英⽂关键词主导，中⽂⽀持弱英⽂⾃然句为主，中⽂适配⼀般中⽂优先，⽀持复杂中⽂语义结构逻辑关键词堆砌（主体 + 细节 + ⻛格标签）⾃然短句（场景逻辑 + 元素关系）中⽂⾃然描述（可含⽂本排版指令）术语依赖强依赖 “8k”“render” 等技术标签弱化术语，依赖场景语义推断平衡术语与⾃然描述，中⽂术语友好复杂场景处理易混乱，需逐⼀标注元素关系⾃动解析元素逻辑，⽀持⻓句描述⽀持中⽂复合场景，⽂本元素可控特性 “旧世代”模型 (SD1.5, SDXL) “新世代”模型 (SD3, FLUX.1, Qwen2-VL) ComfyUI 节点空Latent图像空Latent图像(SD3) 潜在空间通道 4通道 16通道技术⽐喻 .zip 压缩格式 .rar/.7z 压缩格式主要优势兼容性强，⽣态成熟潜在空间信息密度更⾼，重建图像更保真