メディア

画像生成AIブームの火付け役「Stable Diffusion」は何がすごいのか

2022年にリリースされ、日本でも注目されている画像生成AI「Stable Diffusion」。性能が進化するとともに、広告やプロダクトデザイン、建築など各分野での活用事例が出てきた。

» 2023年08月10日 08時00分 公開
[平 行男, 編集:溝田萌里合同会社スクライブ]

 画像生成AI(人工知能)「Stable Diffusion」はテキストで入力された指示(プロンプト)から画像を生成する。2022年8月のリリース以降日本でも多くの注目を集め、Googleの検索ボリュームだけで比較すると同じ画像生成AIの「Midjourney」「DALL-E」を超えているようだ。

 リリース以降、操作性や生成する画像の質が継続的に向上していることで、企業でのユースケースも増えているという。具体的に「Stable Diffusion」は何がすごいのか。Stable Diffusionを提供するStability AIの日本法人代表を務めるジェリー・チー氏が、最新の活用事例を解説した。

画像生成AIブームの火付け役「Stable Diffusion」は何がすごいのか

 「Stable Diffusionは、誰でも簡単に質の高い画像を作り出せる画像生成AIだ。実際にはあり得ない画像も生成できる。便器の画像を入力して、それをもとにデザインされたスタジアムの画像を出力するという遊び方もできる」とジェリー・チー氏は説明する。

Stable Diffusionで出力した画像の一例(出典:講演時の資料)

 Stable Diffusionは画像生成AIブームの火付け役といわれる。2022年のリリース以降、ユーザー数も順調に増加し、企業における活用事例も生まれている。

 Stable Diffusionを提供するStability AIも飛躍的な成長をみせている。2022年10月に10億ドルの資金調達に成功し、2023年1月に日本支社を立ち上げ、同年3月には元GoogleのArt and Cultureチームが設立したClipDropを買収した。

誰でも簡単に使えるモデルに進化

 直近では、2023年7月に高性能版であるStable Diffusion XLがリリースされた。モデルのパラメータ数が増えるとともに、アルゴリズムの改善により生成の質と使いやすさが増している。

 以前は複雑なプロンプトを書かなければ、適切に生成されないという課題があった。しかし新バージョンでは、より単純なプロンプトによって質の高い画像を作れるとしている。音声入力にも対応する他、言葉で表現しにくい指示は線画を入力することでカバーできる。「画像のアウトプットを制御する能力が飛躍的に高まった」(チー氏)。

 以前は「左のロボットが緑、中央のロボットが青、右のロボットが赤」とプロンプトを入力した場合、生成AIが混乱して正しく出力されない現象があった。しかし、Stable Diffusion XLでは、指示通りのロボット画像を生成できる。

以前のバージョンでの生成例(出典:講演時の資料)
同じプロンプトでも、Stable Diffusion XLでは正しく生成された(出典:講演時の資料)

 また、これまでは人間の手がうまく生成できないという問題が指摘されていたが、その点も改善が進む。常に完全とはいえないものの、複雑な形状をより正しく描写できるようになった。

 Stable Diffusion XL、Stable Diffusionにはさまざまな拡張機能も用意されている。「inpainting」(塗りつぶし)では、写真の一部を消して、その部分に背景などの画像を生成できる。

 Stability AIのグループ会社であるClipDropのサイトでは、「Uncrop」という画像のフチを広げる機能が使えるという。本来、画像のフチを広げればその部分に空白が生じるが、空白部分に生成AIが自動で背景を描写する。

 画像の「Reimagine」(再想像)機能も追加された。これは、すでにある画像のスタイルに似た別の画像を生成する機能。同じテーマの画像のバリエーション違いを試したいという場合に便利だ。

 欲しい画像を文字で表すのが難しい場合は、音声での入力の他、簡単な線画での入力もできる。人物のポーズ、猫の顔の角度なども、ごく簡単な線画で入力するだけで、リアルな画像が生成・編集できる。

 「線画で入力する機能はClipDropのWebサイトに実装されている。子供の落書きを入力して、Stable DiffusionでCG画像を生成するというほほえましい例がSNSでたくさん紹介されるようになった」

ラフスケッチから画像を生成(出典:講演時の資料)

広告、プロダクト開発、建築など、各業界に活用事例

 Stable Diffusionは幅広いビジネスで活用されている。広告のクリエイティブやプロモーション動画は特に活用が進んでいる分野だ。メタバースのプロモーション動画でStable Diffusionを利用した例は、わざとAIが生成したという雰囲気を出した仕上がりになっているのが特徴だ。

 人間の動画からアニメキャラクターの画像を生成した事例、また、線画とプロンプトを入力して背景のみを出力した事例もある。Stable Diffusionの機能拡張である「AnimateDiff」を使うと、一つの入力画像から簡単にアニメーションを生成できる。

 プロダクトデザインでもStable Diffusionを活用した事例がある。自動運転EVを手掛けるスタートアップのTuringでは、Stable Diffusionでコンセプトカーをデザインしている他、生成された画像から3Dモデルを作る取り組みもしている。

 「Turingでは生成AIを活用することで、デザイン過程の大幅短縮に成功している。短時間でいろいろなデザインを生成できるStable Diffusionの長所が生かされている。今回は手動で3Dモデルを作っているが、今後は3Dモデル自体も自動生成できるようStability AIで研究を進めている」

 建築やインテリア分野でも事例が出始めている。スタッコプラスはStable Diffusionでしっくい壁のデザインを生成し、それを基に物理的な壁を作っている。このように、AIで生成した画像にインスパイアされて実物を作るというパターンが各業界で散見されるようになった。

 Stable Diffusionと拡張機能「ControlNet」をベースとした「フォトグラファーAI」は、実際の写真とAI生成画像を組み合わせられるWebサービスだ。商品写真をより魅力的に加工したいというニーズに応える。中央に商品の写った画像を用意し、商品の周りに「アセットギャラリー」から台や花のモチーフを選んで、プロンプトでどのような仕上がりにしたいかを入力すると、指示通りの写真に仕上がる。広告やeコマース(電子商取引)サイトでの活用拡大が期待される。

 別の活用例として、画像生成AIをシンセティック・データ(合成データ、人工データ)の生成に使うケースもある。画像認識モデルの開発には大量の学習データが必要だが、コストやプライバシー侵害の問題から十分なデータを集められないこともある。その代わりに用意するのが人工のシンセティック・データだ。

 AIを活用してAIの学習に使う画像データを大量生産することで、本物に近い画像を安価で大量に生成できる。シンセティック・データが学習データ全体に占める割合は増加するとチー氏はみている。

 衛星写真を分析して違法漁業を検知するサービスを提供するShipSenseは、違法漁業を検出する画像認識AIを改善するためのシンセティック・データをStable Diffusionで生成した。Stable Diffusionは、同社が従来採用していた方法よりも効率よく画像認識モデルを改善できることがわかったという。レントゲン写真を分類する画像認識モデルの改善にStable Diffusionを活用し、分類精度を5%改善できた例もある。

 今後はAIで作った画像や動画をどう選ぶか、AIが作る部分と人間が作る部分をどう組み合わせるかといったキュレーターとプロデューサーがより重要になってくるとチー氏は予測する。

 「誰でもクリエイターになれる時代だ。技術の進化でハードルが下がり、多くの人が漫画家やゲーム開発者になれる。Stability AIのミッションは生成AIで人類の能力を拡張して世界を変えることだ。皆さんにも私たちの画像生成AIを試していただきたい」とチー氏は締めくくった。

本記事は、エヌビディアが2023年7月28日に開催したオンラインイベント『NVIDIA 生成AI Day 2023 Summer』の内容を編集部で再構成した。

Copyright © ITmedia, Inc. All Rights Reserved.

会員登録(無料)

製品カタログや技術資料、導入事例など、IT導入の課題解決に役立つ資料を簡単に入手できます。