【SD2.1】LoRAの学習画像の背景を透明にするな

Stable Diffusionはまぁ色々言われておりますが、絵が描けない私にとっては皆さんに私の姿をお届けできる素晴らしいツールとなっております。

その中でもLoRAという、追加学習により私の姿ばっかり安定的に生成することができる手法には大変お世話になっています。

今回は、LoRAで追加学習をするにあたって苦労したポイントについて記載します。

そんなアホなことをするのはお前だけだと言われる可能性をヒシヒシと感じつつ、誰かのお役に立てば幸いです。

LoRAがうまくいかない

「SD2.1は高画質で生成できるんかー、ほなそっちやろ」

そんな軽い気持ちでSD1.5系のモデルからSD2.1系のモデルに移行した私でしたが、いざいざLoRAをやって自分の画像を生成しようとしたところ……

うーん、私の雰囲気は出ているものの、ガスっているといいますか、ハッキリとした絵ができあがりません。

プロンプトでLoRAの強度を下げれば多少はっきりはしてくるものの、当たり前ですが私のイメージからは離れて行ってしまいます。
ロリ井伊矢。

何が原因なのか全然わからず、結局2週間ぐらいあーだこーだやってました。

とりあえずパラメータをいじったり、学習ステップを減らしてみたり、増やしてみたり……色々やったのですが、特に改善せず。

SD1.5の時には特にトラブルが起こったことが無かったのでもにょったりしつつ、「何を変えたかな～？」なんて考えて思い当たったのが「背景透明png」でした。

LoRAに使う学習画像は、その背景が多様であることが良いとされています。キャラだけを切り抜いて学習するわけではないので、特定の背景で学習してしまった場合、後々生成される画像の背景に影響を与えてしまうというわけですね。それはそう。

ところが私の体はVRoid製でして、VRoid Studioのカメラモードでせかせか学習画像を生成したんですよね。

するとどうでしょう。

学習画像の背景が全部単色の灰色になりました。

これで学習をしたところ、その後生成した画像の背景がちょくちょく灰色一色になってしまうという現象に・・・。

というわけでSD2.1に移行するにあたって学習画像を変えることにしました。

「背景透明にすれば背景を汚染せずにできるんじゃないか？」そんな思い付きとともに……

で、用意した画像がこんな感じです。

我ながらいい思いつきだと思ったんですが、これでLoRAモデルを作ったところ、生成画像がガスってしまいました。

というわけでSD1.5系で使っていた画像に学習画像を戻してみました。

その結果がこちら↓

いいんじゃないですか？

パリッとしてますし、ちゃんと私に見えます。

SD1.5の時よりも瞳の表現力が上がっている気がします。

やっとスタートラインに立った気分。

これでLoRAが何とかなりそうなので、次はControl Netなどを使った動画生成をやっていきたいですね。

いい使い方を見つけていきたいです。