Stable Diffusion:互換性別/解像度別のモデル系列の進化

カテゴリー

タグ

破綻する?真っ黒になる?ノイズだけになる。といった失敗はつきもの。Stable Diffusionにおいて”ワケ”や”コツ”が掴めていないときには、様々な失敗をしてしまう。ただたんに失敗してもすぐ解決するのならばストレスがたまならない。しかし、何度も失敗してその日や確保していた時間が無駄になってしまうととっても悔しい。

互換性がある

まずは抑えておきたいポイント。それは、互換性。これとこの組み合わせじゃないと失敗してしまう。といったもの。運が良ければいいイラストが生成されちゃうなっていうこともあるが、例えば古いWindowsのバージョンを前提で作ってしまったものは新しいものではだめとか。ようするにそういったこと。

よく見かける系列のリスト

  • SD1.5系
  • SD3.0系
  • SDXL
  • Pony
  • Illustrious

SDXLから派生したModelとしては、PonyとIllustriousがある。SDXL1.0系って言われているけれども、ModelがPonyベースのときにはPony系にしていかないと思いどおりにならない。IllustriousはIllustriousにしたほうがいい。

何が違う?

一番には各解像度や互換性による違いがある。推奨された解像度の範囲内じゃないと崩れる、破綻うする、おっぱいが3つになったり足が4本になったり顔が2つになってしまったりしてしまう。

もう一つは互換性や相性。解像度に注意していたとしても互換性・相性。ベースとなるモデルのCheckpointがあるが、それと互換性があるLoRAでも一致しないこともある。そのため、そのときは別のCheckpointを使うといいかも?しかし、それでもだめなときはダメ。そういった時は諦める。

Illustrious

元の解像度が高い上に、非常に再現度の高いアニメ画像が生成できる。そのため、Ponyの上位互換的にすぐに流行った。しかしポーズなどはPonyと比べて平凡になりがち。それでも、再現性の方を求められることが多いから、これでいいかなってなる。

Pony系

SDXLじゃ表現度が微妙だったところを、もっとダイナミックにできるようになったもの。とっても流行ったため、たくさんのLoRAが生まれることに。

Illustriousが登場したため

SDXL

1024pxに対応したモデル。そのため、SD1.5と比べて感動的な表現力を手にできた。まだまだAI感が拭えないことが多いが素晴らしい進化。元のキャプチャ映像だとHDなので1920pxからカットした部分となる。そのため、これくらいあったらほぼ原寸大くらいを表現できる。

解像度がそこそこあるので、破綻しづらいが範囲を超えると破綻する。

SD1.5系

512px × 512pxのモデル。SD1.5系のLoRAなどを使う場合はそれに一致しているものを使う。とても解像度が低いため、800pxとか1000pxとかに設定してしまうとおっぱいや手足がぐじゃぐじゃになりがち。新しいモデルが出てきたら使うことがないのかもしれない。しかし、簡単な小さい画像のイラストを作るのには処理が早いからいいかも?

主軸とするモデルの考え方

この1年をどのモデル系を使うかということに時間をかけることが最も時間短縮となる。

長いものには巻かれろが全て。モデルの選定は流行ってきてLoRAがたくさん増えてくるようなベースモデルのものに主軸を置くのが時短になる。しかし、どうしても他のモデルじゃ見当たらないとかいったときにはそのモデルを残しておくのがいい。

導入しやすく実現しやすいものを選ぶ

どんなにすばらしい学習データでも、導入しづらいと盛り上がらない。そのため、結果として廃れてしまう。廃れないものを探し当ててそれをなるべく次はやる系列のモデルが登場するまで使うのがベスト。

SD1.5→SDXL→Pony→Illustrious

広告

アフィリエイト広告を表示しています。

広告

アフィリエイト広告を表示しています。