Stable Diffusionで画像生成を行う際に、思った通りの画像が出力されないことはないでしょうか。
Stable Diffusionで思い通りの画像を生成するためには、描写に関連するプロンプト(呪文)を有効的に活用することが求められます。
今回PROMPTYでは、人物の体型に関連するプロンプトをまとめました。
①背の高さを指定するプロンプト
プロンプトテンプレート
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),full body,standing,detailed skin,detailed face,{背の高さに関する単語} body,1girl,Japanese,beautiful face,{表情や服装・背景など}
| プロンプト | 出力される人物の体型 |
| Tall | 高身長 |
| Short | 低身長 |
| Petite | 小柄 |
| Towering | そびえ立つような |
| Tiny | とても小さい |
| Height-challenged | 身長が低い(婉曲表現) |
| Lanky | 手足が長く痩せた |
| Leggy | 脚が長い |
| Statuesque | 彫像のように美しい(特に高身長の女性) |
| Giant | 巨人 |
実際に画像を生成して比較する
実際に女性の画像を生成して、プロンプトによる背の高さの違い比較します。違いが分かりやすいように、Tシャツにジーンズの服装としました。また、背景もシンプルに指定しました。
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),full body,standing,detailed skin,detailed face,{背の高さに関する単語} body,1girl,Japanese,beautiful face,t-shirt,jeans,simple background
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
モデル:Beautiful Realistic Asians v5
Sampling method:Euler a
Sampling steps:20
Width:512
Height:910
Batch count:1
Batch size:1
CFG Scale:7
Seed:541413720
Script:None
生成した画像:

人物ひとりの画像では、”Tall”と”Tiny”で大きな違いはありませんが、Tallの方が頭身が大きい印象を受けます。”Lanky”は特に手足が長い印象を受けます。
②体重/肥満度を指定するプロンプト
プロンプトテンプレート
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),full body,standing,detailed skin,detailed face,{体重/肥満度に関する単語} body,1girl,Japanese,beautiful face,{表情や服装・背景など}
| プロンプト | 出力される人物の体型 |
| Overweight | 肥満 |
| Underweight | 低体重 |
| Obese | 過度の肥満 |
| Slim | スリム |
| Fit | フィット |
| medium | 標準的な |
| Slender | 細身 |
| Plump | ぽっちゃり |
| Skinny | やせている |
| Rotund | 丸々とした |
| Chubby | ふくよか |
| Heavyset | ずんぐりとした |
| glamorous | グラマーな |
| Voluptuous | 豊満な |
実際に画像を生成して比較する
実際に女性の画像を生成して、プロンプトによる体重/肥満度の違い比較します。違いが分かりやすいように、Tシャツにジーンズの服装としました。また、背景もシンプルに指定しました。
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),full body,standing,detailed skin,detailed face,{体重/肥満度に関する単語} body,1girl,Japanese,beautiful face,t-shirt,jeans,simple background
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
モデル:Beautiful Realistic Asians v5
Sampling method:Euler a
Sampling steps:20
Width:512
Height:910
Batch count:1
Batch size:1
CFG Scale:7
Seed:2937982840
Script:None
生成した画像:

指定したプロンプトに応じて、体型を変化させることができました。”Silm”と”Plump”では大きな違いが見られました。
尚、今回のモデルでは、学習しているが画像に偏りのあるがあると考えられるため、過度に太った女性は生成されにくい傾向があります。
③筋肉の度合いを指定するプロンプト
プロンプトテンプレート:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),full body,standing,detailed skin,detailed face,{筋肉の度合いに関する単語} body,1girl,Japanese,beautiful face,{表情や服装・背景など}
| プロンプト | 出力される人物の体型 |
| Muscular | 筋肉質の |
| Brawny | 筋骨隆々とした |
| Athletic | アスリート並みの |
| Scrawny | やせすぎ |
| curvy | 曲線美がある |
| Toned | 筋肉が引き締まった |
| Ripped | 筋肉が隆々とした |
| Buff | バッキバキの |
| Abs | 腹筋が発達した |
| Weak | 弱々しい |
| Strong | 強い |
| Wiry | 筋骨逞しい |
実際に画像を生成して比較する
実際に、女性の画像を生成してプロンプトによる筋肉量の違いを比較します。
プロンプト:
(masterpiece,best quality:1.4),(8k,raw photo,photo realistic:1.2),full body,standing,detailed skin,detailed face,{筋肉の度合いに関する単語} body,1girl,Japanese,beautiful face,simple background
ネガティブプロンプト:
(worst quality,low quality:2),(painting,sketch,flat color),monochrome,grayscale,ugly face,bad face,bad anatomy,deformed eyes,missing fingers,acnes,skin blemishes,nsfw,nude,nipples
モデル:Beautiful Realistic Asians v5
Sampling method:Euler a
Sampling steps:20
Width:512
Height:910
Batch count:1
Batch size:1
CFG Scale:7
Seed:1034210765
Script:None
生成した画像:

“Athletic”や”Abs”などの単語をプロンプトに組み込むことによって、筋肉質な人物を生成することができました。
まとめ
今回PROMPTYでは、Stable Diffusionで体型を指定して画像を生成する方法を紹介しました。
背の高さや体重/肥満度、筋肉の量に関するプロンプトを入力することで、生成される人物の体型を指定できました。
今回の例を参考に、皆さまもStable Diffusionで体型を指定したハイクオリティな画像を作成に挑戦してみてはいかがでしょうか。
~Stable Diffusionで素早く画像生成するには~
Stable Diffusionの画像生成スピードや画像サイズは、グラフィックボード(GPU)の性能によって大きく変わります。
このため、より効率的かつ快適な画像生成を望むユーザーにとって、最適なグラフィックボードの選択が重要となります。
推論処理やLoRAなどの追加学習処理といった大量の計算を効率よく行うためには、12GB以上のVRAMを持つグラフィックボードを選ぶことを強くおすすめします。
2GBや4GBのVRAMを持つグラフィックボードでは、学習プロセスや高解像度の画像生成に支障が出る可能性が高いです。
コスパを重視する方は、RTX 3060を選ぶと良いでしょう。
このグラフィックボードを使えば、Stable Diffusionの画像生成機能を最大限に活用することが可能となります。