使い方・ハウツー·2026-06-27

AIで思いどおりの画像を作る！プロンプトの書き方完全ガイド

#画像生成AI#プロンプト#Stable Diffusion#初心者向け

AIのトリセツ使い方・ハウツー

この記事の要点

1.プロンプトは「被写体→スタイル→構図→品質ワード」の順に書くと再現性が上がる
2.抽象語（美しい・かっこいい）は数字や固有名詞に置き換えると出力がブレにくくなる
3.「何を出したいか」だけでなく「何を出したくないか（ネガティブプロンプト）」も書くと失敗が激減する

この記事を読み終えると、AIに画像を作ってもらうときに「なんか違う」「思ったのと全然違う絵が出た」という状況から抜け出せます。具体的には、①プロンプト（AIへの指示文）をどんな順番で組み立てるか、②抽象的な言葉をどう具体語に変換するか、③失敗したときにどこを直せばよいかの3点を、コピペできる実例つきでそのまま実践できます。画像生成AIを使ったことがない方でも、記事の末尾まで読んだその日から手を動かせる内容を目指して書きました。

今回の解説は、無料で使いやすい「Adobe Firefly」「Canva AI」「DALL-E（ChatGPT経由）」「Stable Diffusion（無料版・Automatic1111など）」を念頭に置いています。ツールによってインターフェースや細かい仕様は異なりますが、プロンプトの書き方の考え方は共通しているので、どれを使っている方にも応用できます。

そもそもプロンプトとは何か――AIが「絵を描く」仕組みを30秒で理解する

プロンプトとは、AIへの指示文のことです。画像生成AIは、大量の「画像と説明文のペア」を学習しています。プロンプトを入力すると、AIは「この言葉の組み合わせに対応する画像はこういうもの」という学習済みのパターンを参照して絵を生成します。つまりAIはあなたの頭の中を読めるわけではなく、あなたが書いた言葉のパターンにしか反応できません。だから「かっこいい車」と書いても、かっこいいの基準がAIと自分でズレていれば意図した絵は出ません。具体的な言葉でAIの解釈範囲を絞ることが、思いどおりの画像を出す唯一の近道です。

プロンプトの基本構造――「4ブロック」で書くと再現性が上がる

プロンプトに決まったフォーマットはありませんが、「4ブロック構造」を意識するだけで出力の安定性が大きく変わります。ブロックとは、①被写体（何を描くか）、②スタイル（どんな絵柄か）、③構図・視点（どこから見ているか）、④品質ワード（解像度・質感の指定）の4つです。この順番で書く理由は、AIが文章を前から優先的に処理する傾向があるためです。一番伝えたい「被写体」を先頭に置くことで、スタイルや構図の指定に引きずられて主題がぼやけることを防げます。英語でも日本語でも同じ原則が使えますが、ツールによっては英語のほうが学習データが豊富で精度が出やすい場合があります。

①被写体：「白い猫が窓辺に座っている」など、主役と状況を書く
②スタイル：「水彩画風」「フォトリアル」「アニメ風」など絵柄を指定
③構図・視点：「正面アップ」「俯瞰」「ローアングル」など視点を指定
④品質ワード：「高解像度」「シャープ」「8K」「professional photo」など

コピペできる基本プロンプト（日本語ツール向け）

白い猫が木漏れ日の差し込む窓辺に座っている、水彩画風、正面からのミディアムショット、柔らかいパステルカラー、高精細

「抽象語」を「具体語」に変換する――これが出力精度を決める最重要スキル

「美しい」「かっこいい」「いい感じ」という言葉はAIにとって非常に解釈幅が広く、出力がバラバラになります。これを防ぐには、抽象語を数字・固有名詞・比較できる表現に置き換えます。たとえば「かっこいい車」ではなく「マットブラックの1960年代アメリカンマッスルカー、低車高、クロームホイール」と書けば、AIの解釈が一気に絞られます。同様に「夕暮れの美しい空」は「オレンジとパープルのグラデーション、水平線近くに雲が数本、太陽は画面右下にある」に書き換えると格段に近い絵が出ます。「具体語に変換」とは要するに、カメラマンへの指示書を書くイメージです。光の向き・色温度・被写体との距離・背景の要素数まで言語化できれば、AIはその通りに生成しようとします。

抽象語→具体語変換チェックリスト

書いたプロンプトの中に「美しい・良い・かっこいい・すごい・綺麗」といった評価語があったら要注意。その言葉を削除して「色・形・素材・光の方向・距離感」のどれかに置き換えてみましょう。

ステップ別のやり方――最初の1枚から「理想の絵」へ近づける3ステップ

プロンプトを一発で完成させようとすると詰まります。現実的には「ざっくり出す→評価する→部分的に直す」の3ステップで繰り返すのが最短ルートです。最初からすべての条件を詰め込むのではなく、まず被写体だけ書いて出力し、何が足りないかを確認してから次の要素を足す。この方法を取ると、「どの言葉が出力のどこに影響したか」が分かるようになり、次の修正が的確になります。なんでもかんでも一度に書いて「違う！」と投げ出すより、3回に分けて修正するほうが目的の絵に早く到達できます。

ステップ1：被写体と状況だけで一度生成する（例：「コーヒーカップとノートが木のテーブルに置かれている」）
ステップ2：出力を見て「スタイル・光・色・構図」のうち一番気になる1点だけ追記して再生成する
ステップ3：近づいてきたら品質ワードを加えてファイナル版を出力する

実際のやり取り例――「カフェのSNS投稿用バナー画像」を作る場面

場面設定：個人経営のカフェのオーナーが、Instagramの投稿用にラテアートの写真風画像を作りたいと考えています。ツールはChatGPT（DALL-E）を使用。まず最初の入力から始めます。

入力1：まず被写体だけ書いてみる

ラテアートのコーヒーカップの写真を作ってください。

【AIの出力1の評価】：コーヒーカップは出たが、背景が白い無地で、光が正面から当たっていてSNS映えしない。アートのハートが少しぼやけている。— 実際の作業メモ（イメージ）

入力2：スタイルと光の指定を追加して修正

ラテアートのハート柄が描かれたカフェラテの写真。カップはセラミック製の白いマグカップ。木製のテーブルに置かれており、左上から柔らかい自然光が差し込んでいる。背景は少しぼかしたカフェの店内。フォトリアル、Instagram投稿向け、縦長1:1構図、高解像度。

【AIの出力2の評価】：光の方向が指定通りに改善され、背景のボケ感も出た。ハートのアートもシャープになった。SNS投稿に使える品質に近づいた。— 実際の作業メモ（イメージ）

この例で重要なのは、入力1から入力2への変更点が「光の方向・背景の質感・構図」の3点だけだということです。変更箇所を絞ることで、何が出力を改善したかが分かります。もし一度に10項目を変えてしまうと、どの変更が効いたのかが分からず、次の修正で同じ失敗を繰り返します。

ネガティブプロンプト――「出したくないもの」を書くと失敗が激減する

ネガティブプロンプトとは、「生成してほしくない要素」を指定する機能です。Stable Diffusionなど多くのツールには専用の入力欄があり、ここに書いた言葉が出力から除外されやすくなります。ChatGPTやAdobe Fireflyでは「〜は含めないでください」と本文中に書くことで同様の効果が得られます。たとえば人物の手や指は画像生成AIが苦手とする部分で、指が6本になったり関節が変な方向に曲がったりする失敗が起きやすいです。そのため人物を含む画像では「変形した手、余分な指、ぼやけた顔」をネガティブプロンプトに入れておくと品質が上がります。

コピペできる汎用ネガティブプロンプト（Stable Diffusion向け）

（ネガティブプロンプト欄に入力）
blurry, low quality, deformed hands, extra fingers, bad anatomy, watermark, text, logo, cropped, out of frame, duplicate, ugly

ネガティブプロンプトの3大鉄板ワード

「blurry（ぼやけ）」「deformed（変形）」「watermark（透かし）」の3つを入れておくだけで、クオリティの底上げ効果があります。特に人物やリアル系の画像では必須です。

スタイル指定の実例集――「風」の言葉をどう使うか

スタイルを指定する言葉は、「〇〇風」という形で使います。ただし特定の作家名や著作権のある作品名の使用はツールによっては制限されているため、スタイルの特徴を言葉で表現する方法が安全です。たとえば「ジブリ風」と書く代わりに「手描き風の温かみのある色合い、細かい背景描写、淡い輪郭線」と書くと近い雰囲気になります。以下に代表的なスタイル指定の言葉とその効果を示します。ツールにより得意・不得意のスタイルが異なるため、複数試してみるのが現実的です。

「watercolor style」「水彩画風」：にじみや透明感のある絵に近づく
「photorealistic」「フォトリアル」：実写写真に近い質感が出やすい
「flat design」「フラットデザイン」：影のないシンプルなイラスト調になる
「oil painting style」「油絵風」：厚みのある絵の具のテクスチャが出やすい
「line art」「線画」：シンプルな黒い輪郭線のみのイラストになる
「cinematic lighting」「映画的な光」：ドラマチックな陰影と光の演出が加わる

よくある失敗と直し方――「なぜ起きるか」まで解説

画像生成AIを使い始めた方がよく経験する失敗には、典型的なパターンがあります。「なぜ起きるのか」の仕組みを知っておくと、次からの修正が的確になります。以下に代表的な失敗3パターンを解説します。

【失敗1】指示と全然違う画像が出る｜原因：抽象語が多すぎてAIの解釈が広すぎる｜対処法：「被写体・色・形・光」を具体的な名詞と数字で書き直す。プロンプトを読んだだけで誰でも同じ絵を想像できるかチェックする
【失敗2】人の手や顔が不自然に変形している｜原因：手・顔はAIが苦手な部分で、学習データの中でも特に多様な形状があるため崩れやすい｜対処法：ネガティブプロンプトに「deformed hands, extra fingers, bad anatomy」を追加。人物の手を画面内に入れない構図に変更する
【失敗3】プロンプトの後半に書いた指示が無視される｜原因：AIは前半の単語を優先する傾向があるため、後半に書いた情報の重みが下がる｜対処法：最も大事な指定を前半に移動する。どうしても後半に書く必要があるなら、括弧でくくる（ツールによっては重みが上がる）かプロンプトを短く絞る

「なぜか毎回変な絵が出る」と感じたらここを確認

プロンプトを声に出して読んだとき、「この言葉だけ見ても絵が想像できない」と感じる単語があれば、そこがボトルネックです。その単語を具体的な色・形・素材・数値に置き換えるだけで出力が大きく変わります。

英語と日本語、どちらで書くべきか

結論としては「使うツールに合わせる」が正解で、どちらが絶対に優れているとは言い切れません。一般的な傾向として、Stable DiffusionやMidjourney系のツールは英語の学習データが多いため、英語プロンプトのほうが精度が出やすいとされています。一方、Adobe FireflyやCanva AIなど日本語インターフェースを持つツールは日本語対応が進んでいます。ChatGPT（DALL-E）も日本語で書いたプロンプトを内部で解釈して生成するため、日本語でも十分に動作します。まず日本語で書いてみて、出力がイメージと大きくズレるようであれば英語に切り替えて比較してみるのが実用的なアプローチです。DeepLなどの翻訳ツールを使えば、日本語で考えたプロンプトを英語に変換するのは30秒ほどで済みます。

商用利用・著作権について知っておくべき最低限のこと

AI生成画像をビジネスや仕事に使う場合は、利用規約を必ず確認してください。ツールによって「商用利用OK」「有料プランのみ商用OK」「一切の商用利用禁止」など条件が異なります。また、特定の作家やブランドのスタイルを露骨に模倣する指示は、法的なグレーゾーンになる場合があります。現時点ではAI生成画像の著作権に関する法整備は各国で進行中であり、断定的なことは言えない状況です。安全策として、①使用するツールの利用規約を読む、②他者の固有スタイルや商標を直接指定しない、③生成画像をそのまま使わず自分で編集して加工するという3点を心がけると、リスクを下げられます。

応用編：「雰囲気写真」を作るための構図ワードと光の指定

基本プロンプトを書けるようになったら、次は「雰囲気」を作り込む段階です。雰囲気を決める要素は大きく「構図・光・色温度」の3つです。構図ワードを使うと、カメラマンが意図的にレンズを選ぶような細かいコントロールができます。光の指定は特に影響が大きく、「左上からの柔らかい自然光」と「正面からの強いフラッシュ」では同じ被写体でも全く異なる雰囲気の絵になります。色温度の指定も有効で、「暖かみのあるオレンジ系」と「クールなブルー系」を切り替えるだけで印象が大きく変わります。以下のワードをプロンプトに追加するだけで、出力の質感が一段上がります。

構図ワード：「close-up（クローズアップ）」「wide shot（全体俯瞰）」「bird's eye view（真上から）」「low angle（ローアングル）」「rule of thirds（三分割構図）」
光の指定：「golden hour lighting（夕方の柔らかい光）」「soft diffused light（拡散した柔らかい光）」「dramatic side lighting（強い横からの光）」「backlit（逆光）」
色温度・雰囲気：「warm tones（温かみのある色調）」「cool tones（クールな色調）」「moody（沈んだ落ち着いた雰囲気）」「airy and bright（明るく抜け感のある）」

コピペできる応用プロンプト（EC・商品撮影風）

A single white ceramic coffee mug on a rustic wooden table, golden hour lighting from the left, soft bokeh background with warm tones, close-up shot, photorealistic, high resolution, 1:1 square format, no text, no watermark

「雰囲気を変えたい」ときはまず光の指定だけ差し替える

スタイルを全部書き直す前に、光の指定ワードだけ変えてみてください。「golden hour」→「dramatic side lighting」に変えるだけで、同じ被写体が全く別の雰囲気になります。修正の手間が最小で効果が大きいテクニックです。

よくある質問（Q&A）

Q1：無料ツールでもここに書いたプロンプトは使えますか？ A：基本的な書き方の原則は、Adobe Firefly（無料枠あり）、Canva AI（無料枠あり）、ChatGPT無料版（DALL-E、1日の生成枚数に制限あり）でも同様に適用できます。ネガティブプロンプト専用欄はStable Diffusionなど一部ツールにしかありませんが、「〜は含めないでください」という形で本文中に書けば多くのツールで代替できます。ツールごとの細かい差は利用規約と公式ガイドを確認してください。

Q2：何回試しても思うような絵が出ません。どうすればいいですか？ A：まずプロンプトを「一文」にして、被写体だけにシンプルにしてみてください。情報が多すぎるとAIが要素間の優先度を判断できなくなり、中途半端な出力になります。シンプルな一文で方向性を確認してから、1要素ずつ足していくアプローチに切り替えると改善します。また、同じプロンプトで数回生成してみる価値もあります。ランダム性があるため、同じ入力でも毎回違う出力が出ます。

Q3：プロンプトは長ければ長いほど良いですか？ A：長さよりも「具体性」が重要です。100字の抽象的なプロンプトよりも、40字の具体的なプロンプトのほうが精度の高い出力になることがよくあります。目安として、最初は「被写体＋スタイル＋光または構図」の3要素を30〜60字程度でまとめて試してみてください。うまくいったら品質ワードを10〜20字ほど足す、という順番で積み上げると管理しやすいです。プロンプトが長くなるほど後半の指示が薄れる傾向もあるため、不要な言葉は削ることも意識してください。