【StableDiffusion】画面の見方、機能の意味と使い方について【初心者向け】

AI
新人さん
新人さん

StableDiffusionを何となく使っているけど、機能が良く分からないよ

どんな設定が良いのかな

きのぴー
きのぴー

画面の項目と機能について説明しますね!

ここではtxt2img(文字から画像を生成する)画面について説明します

・AIイラスト生成ソフト(StableDiffusion)の、各項目の意味をご説明します

・実際に画像を生成しながら記事を作成したので、導入を検討している方も参考になると幸いです

StableDiffusionの画面について

StableDiffusionを起動すると、以下の画面がまず表示されます。

文字(プロンプト)から画像を生成する画面で、一番よく使う画面です。

順番に機能の説明をして行きます。

①Stable Diffusion checkpoint

checkpointとは、AI画像を生成する際のもとにしている画像集団です。

これを切り替えることで、生成する画像の画風を変更できます。

例えば、何も調整せずに「Young woman singing a song」とだけ、指定して生成します。

「cetusMix」の場合は以下のような画像が生成され

「pastelmix」の場合は以下のような画像が生成されます

どのような絵を深く学習したかによって、色の塗り方や学習の細かさが大分変わってきます
チェックポイント毎に得意分野が変わるイメージです。

②Prompt

「描いてほしい内容」を記載する場所です。

単語をカンマ(,)区切りで書いても良いですし、英語でイメージを書いても反映されます。
単語毎に書いた方が、どの項目を強調するか指定しやすいため、単語を連続して書いている方が多いかなと思います。

案外、英語で書いてもきれいに作ってくれます。
「アコギを夜の繁華街で弾き語りしている女性」と入力したら、以下のような画像が出来ます。

A young female street musician is holding an acoustic guitar and playing. The location is in a train station at night, with few people passing by. The woman's hair color is brown with white mesh, and she is wearing a white shirt and a rider's jacket. The background is downtown at night, with the neon lights of the town shining brighter than the stars. Very delicate picture in high quality.

③Negative prompt

先ほどとは逆に「描いてほしくない内容」を記載する場所です。

造形の不備や、画質の荒いデータを指定することで、それを除外出来ます。

ここを指定せずに生成すると、結構絵の出来上がりが変わります。

細かく入力して指定しても良いですが、拡張機能で「EasyNegative」を使用することで、細かく指定しなくてもいい感じにしてくれるようになります。

EasyNegativeを使用した場合(NegativeにEasyNegativeのみ入力)

EasyNegative使用しないの場合(Negative未入力)

④Sampling method

イラスト生成時のアルゴリズム(計算式)を指定する箇所です。

チェックポイントによっては推奨しているものがありますので、推奨があればそれを指定してください。特に指定が無ければ「DPM++ 2M SDE Karras」を指定している人が多い気もしますが、「DDIM」もいい感じがします。

生成時間や、クオリティに影響します。
※「Script」の箇所で後述します。

生成速度は比較したらわかる程度です。正直体感は余りないです。
クオリティは分かりやすいです。試しに比較します。

【DDIM】こちらは特に違和感が無い(画質設定の細かい指定なし)

【DPM fast】相性が悪い場合は以下のようになります。

印象派かな?苦手な人もいると思うので小さめにしておきます。

⑤Sampling steps

画像生成の処理回数です。AIイラストはノイズに対してプロンプト等の各種指示に沿った処理を行い、

徐々に画像を完成させていきます。

【Sampling Stepsが1回】の場合

【Sampling Stepsが5回】の場合

【Sampling Stepsが30回】の場合

サンプリング回数を増やすと高画質化が狙えます。

ただし、サンプリング回数を単純に増やせばよいというものではないようで、増やしすぎると生成に時間がかかった割にあまり変わらなかったり、1周回ってよくわからない絵になることがあります。

【Sampling Stepsが75回】の場合

【Sampling Stepsが127回】の場合

サンプリング回数を増やしてもギターのネックとヘッドが苦手なことが分かりました。

余り変わらなくなってきているので、「Lora」や「LyCORIS」などの学習情報を追加することで、追加補正をした方がよさそうです。

⑥Restore faces・Tiling・Hires.fix

・Restore faces

 こちらは使いません。顔を左右対称にする機能のようですが、変化が見受けられません。

・Tiling

 プロンプトの指示を繰り返し表示する機能のようです。
 が、プロンプトと関係のない画像が生成されるので、正直使わないです。

・Hires.fix

 こちらはよく使います

 512*512で生成された画像を拡大して、再度AI処理して高画質化する機能です。

「Hires.fix」にチェックを付けると、設定項目が増えます。主に使うのは以下2項目です。

Hires steps
 画像サイズを大きくした際の、画像サンプリング回数です。
 こちらも多すぎてもあまり変わらない印象。ただし、書き込みが細かい絵を見ていると、このステップの指示が40等、多い場合もあります。

Denoising Strength
 拡大した際に発生するノイズを除去する強さです。デフォルトのままが一番良いかもしれませんが、
 ノイズが少なそうなイラストの場合は、もっと数値を減らしても良いかもしれません。

 では早速比較してみましょう。次はドラムで試してみます。
 まずは通常画質。

次は「Hires steps:20」「Denoising Strength:0.7」とした場合の結果は以下です。

大分高画質になっていますが、余計なものも増えているような…
この辺りはネガティブプロンプトやDepth等で調整をします。

⑦Width・Height

こちらはシンプルに生成する画像のサイズです。

512*512が初期値になっています。AIで学習している画像のサイズが512*512が多いため、

綺麗に生成できる可能性が高いサイズになります。

最初から大きいサイズで生成するのではなく、一旦512*512で生成してから気に入った絵を「Hires.fix」で高画質化する方法がベターなようです。

⑧Batch count、Batch size

・Batch count
 画像を繰り返し生成する枚数です。2とした場合、「2回生成」されて2枚できます。

・Batch size
 画像を並行処理で生成する枚数です。2とした場合、「2枚同時」に生成されて2枚できます。

結果は同じになりますが、処理の考え方が異なります。一般的に並行処理は重たいので、GPUに自信が無い場合はBatchCountを増やして生成枚数を稼ぎましょう。(時間は並行処理より、かかるはずです)

GPUに余裕がある方は、両方のカウント数を調整しながら生成枚数を増やして、いい絵の成功率を上げましょう。

※両方に2を指定した場合は、2*2=4枚生成されます

⑨CFG Scale

AIに対してどれくらいプロンプトの指示内容を反映させるかの設定です。

基本的にはデフォルトのままで良いと思います。

⑩Seed

こちらはよく使うと思います。

Seedとは生成したイラストに割り振られた数値です。
同じ構図で少し変えたい場合等、ベースで良いものが見つかったら同じSeedを指定して生成すると似た絵柄で生成することができます。

なお、初期設定されている「-1」はランダムになります。さいころボタンを押すと「-1」になります。

Seedは以下の場所に表示されています。

また、PNG Infoを使用すれば、生成して保存した画像からSeedを調べることができます。

⑪Script

基本的にはNoneのままでOKです。

パラメータの設定を変えてどのように画像が変わるかを比較する際に使用します。

具体的には以下のようにSampling methodとStep数を変化させるとどれくらい絵が変わるか比較してみます。

(例)X/Y/Z Plotの場合

 Samplerを「DPM++ 2M SDE Karras」と「DDIM」「Heun」で比較

 ステップ数は3の倍数で比較。ブリジットを大量生成してみました。

 こう見るとSampler事のイメージの違いと必要ステップ数の違いがなんとなく分かりますね

⑫Generate

イラストの作成を開始するボタンです。

右クリックすることで、「GenerateForever」が選択でき、連続再生の指示が行えます。

⑬小ボタン5つ

左から順番に以下機能になります。

・(矢印)前回使用していたプロンプトを呼び出すボタン

・(ゴミ箱)プロンプトの内容をクリアするボタン

・(花札)こちらはよく使います。Lora等の追加情報を付与する際に使用します。

・(クリップボード)保存しているプロンプトを呼び出すボタン

・(フロッピー)現在入力しているプロンプトを保存するボタン

⑭スタイル選択

フロッピーボタンで保存したプロンプトの内容を呼び出す際に、どのクリップボードを呼び出すか選択する際のプルダウンです。

好みのプロンプトが決まったら、名前を付けてスタイルを保存します。

使用するときは、プルダウンから使用したいスタイル名を選択し、クリップボードボタンをクリックすると、プロンプトが反映されます。

⑮画像表示場所

生成した画像が表示されます。クリックすることで拡大表示できます。

⑯右下ボタン

・(フォルダ)画像を保存しているフォルダを開きます。
 ※環境によってはちゃんと動かないかもしれません
 (私のGoogleColabo環境では正常に動きませんでした。)

・(Save・Zip)PNGファイルやZIPファイルが以下フォルダに保存されます。

・(Send To img2img)生成した画像とプロンプトをimg2imgにコピペします。
 ※img2imgは画像から画像を生成する機能です。

・(Send To inPaint)inpaintに生成した画像をコピペします
 ※inPaintは少し微妙な箇所を手でマスキングして、再生成する機能です。

・(Send To Extras)Extrasに生成した画像をコピペします
 ※Extrasは画像の再加工・高画質化を行う機能です。

きのぴー
きのぴー

長文お疲れさまでした!

正直、機能が豊富すぎて覚えられないので、要に応じて調べる方が良いですね!

AIイラストの生成に時間がかかる場合

AIイラストはどうしてもグラフィックメモリを大量に使用します。

スペックが不足していると、生成に時間がかかってしまいます。
なかなかいいと思えるイラストが生成されない経験はあると思います。

改善されたい場合は、グラフィックボードを購入するか、グラフィックボード搭載のノートPCの購入をご検討ください。

パワフルな大画面ゲーミングノートPC MSI エムエスアイ KATANA-GF76-11UD-671JP Core i7-11800H GeForce RTX 3050 Ti メモリ:16GB SSD:512GB 17.3インチ Windows 11 Home ゲーミングノートパソコン

価格:147,800円
(2023/6/13 01:01時点)
感想(0件)

Palit パリット / NE63060019K9-190AD / RTX3060 Dual 12G / [NE63060019K9-190AD] / グラフィックボード

価格:45,400円
(2023/6/13 00:42時点)
感想(2件)

CLIP STUDIO PAINT EX

完全無料で最短3週間でエンジニアへ エンジニアズゲート



コメント