ComfyUI職人が明かす、生成AI画像の「質」を決める5つの秘伝ノード設定

正直、驚いた。
この設定を知る前と後では、生成される画像が別物になった。

ここだけの秘密だが、Stable Diffusionの出力品質はプロンプト以前にノード設定で決まる。
私は3000時間を超えるComfyUIとの格闘の中で、この事実を骨の髄まで理解した。

プロンプト以上に重要だった「ノードの内側」の世界

最初は誰もがプロンプトの魔術師になろうとする。
確かにプロンプトは重要だ。

しかし、ある日気づいた。
同じプロンプトでも、なぜか「安定して美しい」出力を生むワークフローと、そうでないものがある。

その差は、ノードの接続順序や、ほとんど語られることのない内部パラメータにあった。
公式ドキュメントには載っていない、職人たちの間でだけ受け継がれる「数字」が存在した。

今日は、私が血と汗（と多くのGPU時間）で見出した、核心の5つの設定を公開する。
これらは、単なる「設定」ではなく、画像の「質感」「一貫性」「創造性」を根本から変えるレバーだ。

秘伝設定その1：KSamplerの「シードの握り方」

シードを固定するだけでは不十分だ。
KSamplerノードでは、seedをただ入力するのではなく、その「振る舞い」を制御する。

noise_seedとseedを分離して考える。
noise_seedを固定し、seedを少しずつ増加させていく（例：seed + バッチ番号）。

これにより、バッチ生成時にも「コンセプトは統一されつつ、バリエーションが生まれる」という理想状態を作り出せる。
シードをランダムにした時の「ガチャ感」から解放される。

さらに、cfg（Classifier Free Guidance）の値は、プロンプトへの忠実度だけでなく、ノイズスケジュールとの相互作用で画像の「硬さ」を決定する。
私はcfg=7.0をデフォルトとし、繊細なポートレートでは6.0まで下げ、構造的なイラストでは8.0に上げる。

この微調整が、AI臭さを消す第一歩だ。

秘伝設定その2：CLIPエンコーダの「テキストの深読み」設定

CLIP Text Encodeノードはただプロンプトを通すだけの装置ではない。
ここに「テキストの重み付け」以上の深い介入が可能だ。

CLIP Skip（stop_at_clip_layer）の値は-1や-2がよく使われるが、私は-1を基本としながら、ネガティブプロンプト用のエンコーダでは-2を使い分ける。

これにより、モデルがプロンプトを「表面的に」ではなく、「文脈として」深く解釈するよう促せる。
特に、(masterpiece:1.3)のような質感指示が、単なるタグではなく、画像全体のレンダリング方針に浸透する。

もう一つの秘訣は、長文プロンプトを単一のエンコーダに流し込まないことだ。
「構図」「被写体の詳細」「画風」「ライティング」を分離し、複数のエンコーダに分担させ、その後でLatentを結合する。
これで、プロンプトの各部分が画像の異なる層に確実に影響を与える。

秘伝設定その3：VAEの選択と「デコード前の儀式」

VAEはLatent（潜在空間）をピクセルに戻す最終段階のデコーダだ。
ここでの選択が、色味とディテールを決める。

kl-f8-anime2やvae-ft-mse-840000-ema-prunedなど、モデルに最適化されたVAEを使うのは当然。
しかし、それ以前にやるべきことがある。

それは、Samplerから出力されたLatentを、いきなりVAEに通さないことだ。
間にVAEDecodeDetailやLatent Detail Adjustmentノードを挟み、デコード前のLatentに対して軽微なシャープネスやコントラスト調整を加える。

この「デコード前の儀式」が、ぼんやりとした出力を、ピンと張りのある画像に変える。
0.05から0.1という微細な調整が、世界の差を生む。

秘伝設定その4：LoRA/Checkpoint Mixingの「黄金比」

良質なモデルやLoRAを入手しても、その「配合比率」を誤れば台無しだ。
Checkpoint LoaderやLora Loaderのstrength（モデル側）とclip_strength（CLIP側）は独立して調整する。

例えば、画風LoRAを適用する場合、strength=0.7（画像構造への影響）とclip_strength=0.9（テキスト理解への影響）のように、意図的に値をズラす。
これにより、画風は適用されつつ、元のモデルが持つ質感やプロンプト遵守能力を損なわない「ハイブリッド」が生まれる。

複数のLoRAを同時使用する時は、その合計がstrength=1.2を超えないようにする。
過剰な適用は、画像を不安定にし、意味不明のアーティファクトを発生させる。

秘伝設定その5：ノイズ生成の「源流」を制御する

すべての生成はノイズから始まる。
この初期ノイズを制することが、最終出力の「運」に左右されない安定性をもたらす。

Empty Latent Imageで生成サイズを指定した後、KSamplerに送る前に、Latent Noise Injectionノードを経由させる。
ここで、ノイズのタイプをperlinやsimplexなどに変更し、noise_scaleを微調整する（通常は0.9〜1.1）。

これにより、デフォルトの単純なガウシアンノイズから生まれる「平均的」な構図を脱し、より有機的で偶然性に富んだ初期構図を獲得できる。
特に風景や抽象画では、この一手が決定的な差を生む。