今回は、Googleの最新AI動画生成ツール「Veo 3」を使って、街頭インタビューのシーンを再現した動画を制作してみました。
賑やかな都会の街角で、カリスマ的な男性が話す8秒間のシネマティックな映像を目指しました。プロンプトの工夫から生成プロセスまで、詳しくシェアします!
実際に生成された動画
実際のプロンプト
Veo 3で高品質な街頭インタビュー動画を作るには、プロンプトの具体性と簡潔さが重要。試行錯誤の末、以下のプロンプトにたどり着きました。街頭インタビューの臨場感を出すため、都会の雑踏やリアルなディテールを強調しました。
プロンプト(バランス重視版、約140文字):
[SCENE] A bustling urban street corner at midday. Skyscrapers reflect light, pedestrians and taxis move through. Steam rises from a hot dog stand, filled with vibrant natural light.
[SUBJECT] A charismatic man in his 30s at the center of the frame. Wearing a black baseball cap and a purple T-shirt, he speaks confidently to the camera. Mouth movements are perfectly synced with Veo 3’s audio.
[ACTION] The man gestures as he speaks, while pedestrians walk in the background and a bicycle messenger passes by.
[STYLE] Cinematic and hyper-realistic, with crisp details.
[CAMERA MOTION] A steady, eye-level medium shot focused on the man. The background is slightly blurred with shallow depth of field, and the camera subtly pans right over 8 seconds.
[AUDIO] Man’s dialogue: “This city never sleeps, and I love being part of the hustle!” Background sounds include distant car horns, traffic, and a faint saxophone melody.
[NEGATIVE PROMPT] Avoid unrealistic elements, cartoonish effects, or text overlays.
日本語訳
[SCENE] 昼間の賑やかな都会の街角。街頭インタビューの現場。高層ビルが反射し、歩行者やタクシーが行き交う。ホットドッグの露店から湯気が立ち、活気ある自然光が溢れる。
[SUBJECT] フレーム中央に30代のカリスマ的な男性。黒い野球帽と紫のTシャツを着用し、カメラに向かって自信をもって話す。口の動きはVeo 3の音声と完璧に同期。
[ACTION] 男性は身振り手振りで話し、背景では歩行者が往来し、自転車のメッセンジャーが自然に通り過ぎる。
[STYLE] シネマティックでハイパーリアル。細部まで鮮明な描写。
[CAMERA MOTION] 男性に焦点を当てたアイレベルのミディアムショット。背景は浅い被写し界深度でぼかし、8秒かけてゆっくり右にパン。
[AUDIO] 男性のセリフ: 「この街は眠らない、この喧騒の一部でいられることが大好きだ!」背景には車のクラクション、交通音、かすかなサックスのメロディー。
[NEGATIVE PROMPT] 非現実的な要素、漫画的な効果、テキストオーバーレイは避ける。
このプロンプトは、街頭インタビューの雰囲気、キャラクターの動き、音声同期を明確に指定しつつ、GoogleのVeo 3が処理しやすいよう情報を凝縮しました。
動画生成のプロセス
1. プロンプトの試行錯誤
最初は、ビルのガラスの色や歩行者の服装まで細かく指定した長いプロンプトを試しましたが、Veo 3は情報が多すぎると一部の要素を無視する傾向がありました。例えば、車や歩行者がぼやけたり。
そこで、街頭インタビューの核心(都会の雑踏、男性の話し方、音声同期)に絞り、不要な詳細を削減。「街頭インタビュー」というキーワードを加えることで、カメラに向かって話すライブ感を強調しました。
Veo 3の音声同期機能は特に優秀で、男性の口の動きがセリフに完璧にマッチ。街頭インタビューらしいリアルな映像になりました!
2. 生成結果
Veo 3で生成した8秒の街頭インタビュー動画は、期待以上のクオリティ!高層ビルがキラキラと反射し、ホットドッグの露店から湯気が立ち上る都会の街角は、まるで本物のインタビュー番組のワンシーン。
背景の歩行者や自転車のメッセンジャーの動きも自然で、男性の「この街は眠らない!」という力強いセリフが、車のクラクションやサックスのメロディーと相まって、めっちゃ臨場感がありました。カメラのスローパンと浅い被写し界深度が、男性を際立たせつつ、街頭インタビューの賑やかな雰囲気を完璧に再現。
初回生成では自転車の動きが少し不自然だったので、「自然な速度で通過」をプロンプトに追加して再生成。2回目でスムーズな動きになり、理想の街頭インタビュー映像が完成!
3. 使ってみた感想
GoogleのVeo 3の強みは、ハイパーリアルな描写と音声同期の精度。男性の紫のTシャツのシワや野球帽の質感、背景の雑踏の細かい動きまで、街頭インタビューらしいリアルさがバッチリ。
音声と口の動きの同期は特に素晴らしく、まるでテレビの生放送のような臨場感!プロンプトを140文字程度に抑えたことで、Veo 3が意図を正確に反映し、無駄な要素が入りませんでした。
8秒という短い尺でも、街頭インタビューのストーリー性と都会のエネルギーをしっかり表現できました。
完成した動画の感想
完成した8秒の街頭インタビュー動画は、まるでテレビ番組のワンシーン!男性の自信溢れる話し方、都会の喧騒、滑らかなカメラの動きが一体となり、めっちゃカッコいい仕上がりに。GoogleのVeo 3のハイパーリアルな描写で、ビルの反射や露店の湯気までリアルに再現され、街頭インタビューの臨場感がバッチリ。音声と口の動きの同期も完璧で、まるでその場にいるような没入感でした!
Veo 3を使ってみたい人へのアドバイス
- プロンプトはシンプルに:100~150文字以内に収め、「街頭インタビュー」など核心キーワードを入れる。
- 試行錯誤を:生成結果を見て、動きやディテールを微調整。2~3回試すと理想の映像に近づきます。
- 音声機能を活用:インタビューらしい短く力強いセリフを選ぶと、リアリティがアップ。
- ネガティブプロンプトを忘れずに:非現実的な要素や文字を排除して、プロクオリティをキープ。
まとめ
GoogleのVeo 3で作った街頭インタビュー動画は、都会のエネルギーを8秒間に凝縮したシネマティックな作品になりました!プロンプトの工夫で、こんなリアルな映像が作れるなんて、AIの進化に感動。次はもっと複雑なシーンや長い尺にも挑戦したいです。Veo 3、街頭インタビュー動画を作るのに超おすすめなので、ぜひ試してみてください!