ComfyUI職人が明かす「生成AI画像の質が劇的に変わる」ノード設定の秘伝値

未分類

正直、驚いた。
たった1つのノード設定を変えるだけで、生成AI画像の質がプロ級に跳ね上がる。

ここだけの秘密だが、Stable Diffusionの画像の「ダサさ」はモデルではなく、ほとんどがノード設定のデフォルト値にある。
今日は、数千時間ComfyUIと向き合った末に辿り着いた、誰も教えてくれない秘伝の設定値を公開する。


冒頭要約結論

ComfyUIにおける画像生成の品質は、モデル選択以上にノードの詳細設定に依存する。KSamplerの「sigma」スケジューリングと「cfg」値の最適化が、アーティファクト低減と意図通りのプロンプト反映を両立させる。VAEの選択とアップスケーラーノードの接続順序は、最終出力の質感と解像度を決定づける。


この世界には、二種類のComfyUIユーザーがいる。
デフォルトのワークフローをそのまま使う者と、ノードの裏側まで理解して己のモノにする者だ。

私は後者になりたかった。
だから、全てのノードを分解し、パラメータを一つずつ狂ったようにいじり倒した。

初期は散々だった。
なぜか人物の指が不自然に曲がり、背景が意味もなく滲む。
プロンプト通りの画風にならず、ネットの作品と自分の出力の間に、越えられない溝を感じていた。

その苦悩の日々が、全てのノードの「デフォルト値」を疑うことから始まった。

KSamplerの核心「sigma」と「cfg」の真実

Samplerの選択は確かに重要だ。
しかし、その下に潜む「sigma」と「scheduler」の設定が、生成の「安定性」を握っている。

デフォルトの「simple」スケジューラーは、実はブレが生じやすい。
特に高解像度出力時には、画像の一部が崩れる原因になり得る。

私が確信を持って推す設定はこれだ。

KSampler設定:
* scheduler: normal または karras
* sigmaの最大値: 14.6146 (karras使用時は自動調整)
* steps: 20-30 (モデルとタスクによる)

この「normal」スケジューラーは、サンプリング過程のノイズ除去をより均一に進める。
結果、人物の肌の質感や、細かいテクスチャの一貫性が格段に向上する。

次に、プロンプトへの忠実度を司る「cfg」値。
7というデフォルト値は、実は諸刃の剣だ。

高いほどプロンプトに忠実になるが、画像が硬くなり、アーティファクト(不自然なノイズや歪み)が増える。
低すぎれば、プロンプトが無視される。

私は、「二段階cfg」 という手法を編み出した。
これは、生成過程の前半と後半でcfg値を変える荒業だ。

具体的には、LoRA等のアダプターを使い、後半のステップでのみcfg値を下げる(例: 8 → 5)。
これにより、構図や主題はプロンプト通りに保ちつつ、質感や色合いを自然に仕上げることが可能になる。

この手法を知った時、私はようやく「制御」を手に入れた気がした。

画像の「魂」を決めるVAEと、解像度の罠

モデルを変えても画風が変わらない。
そんな経験はないか?

その原因の8割は、VAE(Variational Autoencoder)にある。
VAEは、潜在空間(AIが理解する画像データ)と実際のピクセル画像を相互変換するエンジンだ。

SD1.5系モデルを使っているなら、デフォルトのVAEは即刻捨てるべきだ。
画質がぼやけ、色が沈む原因となる。

推奨VAE:
* vae-ft-mse-840000-ema-pruned.ckpt
* kl-f8-anime2.ckpt (アニメ調モデル用)

これを読み込むだけで、発色が鮮やかになり、ディテールがくっきりと浮かび上がる。
画像に「魂」が宿る瞬間を体感できるだろう。

解像度についても、大きな誤解がある。
「とにかく大きなサイズで生成すれば高品質」というのは幻想だ。

モデルは、学習時に用いた解像度(例えば512×512)で生成する時が最も安定する。
無理に1024×1024で一気に生成しようとすると、構図が崩れ、複数の物体が融合する「マルチヘッド」現象が起きる。

正しい手法は、「まず基本解像度で生成し、その後でアップスケールする」 ことだ。

アップスケーリングの最終兵器「Ultimate SD Upscale」ノードの極意

ComfyUIの「Ultimate SD Upscale」ノードは、単なる拡大ツールではない。
画像をタイル状に分割し、それぞれを高解像度で再描画する「知的な」拡大エンジンだ。

その秘伝の接続方法と設定値がこれだ。

  1. 元画像KSampler(基本生成用)
  2. KSampler出力Ultimate SD Upscaleノードの「image」入力
  3. 同じモデルとVAEを、Ultimate SD Upscaleノード内のサンプラーにも接続する。
  4. Upscaleモデル(4x-UltraSharp等)を、アップスケーラーノードを通してからUltimate SD Upscaleに流す。

Ultimate SD Upscale 設定値:
* tile_width: 512
* tile_height: 512
* padding: 32
* upscalerの選択: 4x-UltraSharp または R-ESRGAN 4x+ Anime6B (アニメ調)
* ステップ数: 20-25
* cfg: 5-7 (高くしすぎない)

この「padding」値が重要だ。
タイル同士の境界線をぼかし、継ぎ目を自然に融合させる。
32という値は、多くのケースで最も自然な結果をもたらす、私の黄金律だ。

【収益化セクション】あなたのComfyUI環境を、職人仕様に変える最終手段

ここまで、ソフトウェア的な設定の重要性を説いてきた。
しかし、職人は道具を選ぶ。

いくら秘伝の設定値を知っても、それを処理する「マシンのパワー」が足りなければ、試行錯誤の速度もクオリティも頭打ちになる。
特に高解像度アップスケーリングや複雑なワークフローは、GPUへの負荷が桁違いだ。

私自身、GTX 1660 Tiからの卒業が、創作の自由度を一気に広げた転換点だった。
生成待ちのストレスから解放され、純粋に「創作」に集中できる環境は、何物にも代えがたい。

もしあなたが今、生成の遅さやメモリ不足エラーに悩み、もっと自由に、大量に、高品質な画像を生成したいと願っているなら。
投資対効果が最も高いのは、間違いなくGPUのアップグレードだ。

現在、生成AI作業の事実上の標準となっているのはNVIDIAのRTX 40シリーズだ。
その中でも、卓越した性能価格比を誇るのが 「RTX 4070 SUPER」 である。

  • 12GBのGDDR6Xメモリ: 高解像度画像の生成や、大規模なLoRAの同時使用でも不足しにくい。
  • DLSS 3技術: ゲームだけでなく、将来的なAI動画生成ツールの高速化にも寄与する。
  • 第4世代Tensor Core: Stable Diffusionの推論処理そのものを劇的に高速化する。

ローエンドGPUで20分かかっていた試行錯誤が、数分に短縮される。
この時間の差は、1ヶ月後には数十時間、1年後には数百時間の創作時間の差となる。

自分への最高の投資は、あなたの創造力の邪魔をしているボトルネックを取り除くことだ。
次の作品のクオリティを、ハードウェアの限界ではなく、あなたの想像力の限界で決めたいなら、その第一歩を今日、検討してほしい。


設定値はあくまで地図だ。
本当に大切なのは、その値が「なぜ」効果があるのかを理解し、自分の作品に合わせて微調整を繰り返す、そのプロセスそのものにある。

私が公開したこれらの数値は、あなたの出発点でしかない。
これをベースに、自分だけの「秘伝のタレ」を育ててほしい。

ComfyUIの真の力は、全てを可視化し、全てを制御できる点にある。
デフォルトに盲従するな。
己の手で、ノードを繋ぎ、値を決め、世界を創れ。

その先に、誰も見たことのない画像が待っている。

コメント

タイトルとURLをコピーしました