はじめに ✨
先日、OpenAIの動画生成AI「Sora」を使って「ロボット掃除機に乗って通勤するサラリーマン」の映像を作成しました。
5月の後半になり、私はGoogleの「Veo 2」の高い映像品質に注目していたのですが、最近になって、「Veo 3」が公開されたようです。Imagen 4, Veo 3: Googleの最新のメディア生成モデル
今回は、私が過去にSoraとVeo 2で作成した「ロボット掃除機に乗って通勤するサラリーマン」の映像を、最新のVeo 3で再現してみた体験をご紹介します。両者の進化と違いを、実際の映像を通して徹底比較していきます。
各AI動画生成モデルの紹介
Soraの紹介と作成動画 🎨
まず、OpenAIの動画生成AI「Sora」についてご紹介します。Soraは、映画のような高品質な映像を生成する能力を持ち、私が現在メインで活用しているツールです。これまでに、短い時間でもインパクトのあるユニークな映像を数多く制作してきました。
Soraは一度に2~4のバリエーションを生成でき、720pで最大5秒、または480pで最大10秒の動画に対応しています。また、RemixやRe-Cutといった追加編集も可能で、生成された動画をさらに洗練させることができます。
今回、Veo 3と条件を合わせるため、Soraで新たに720pの動画を生成しましたので、そちらをご紹介します。(過去に作成したものは480pでした。)
- アスペクト比:16:9
- 解像度:720p
- 長さ:5秒
- バリエーション:2パターン生成
🎬 Soraで作成した動画(720p):
使用したプロンプトを表示(Sora)
A surreal and realistic 5-second video of a businessman in a formal suit commuting on a robot vacuum cleaner through a quiet city street in the early morning. The man looks serious and professional, carrying a briefcase as he slowly rides the vacuum cleaner, similar to an iRobot Roomba, like it's a normal commute. The background shows a modern office building and soft morning light. The scene is high-resolution and cinematic, with a humorous and deadpan tone.
ロボット掃除機の描写を安定させるために、Veo 2/3のプロンプトに対し、, similar to an iRobot Roomba
を追記してあります。
過去にSoraで作成した動画(480p)を表示
作成体験を記した記事はこちらです。
Veo 2の紹介と作成動画 🤖
次に、Googleの動画生成AI「Veo 2」をご紹介します。Veo 2は、1回の生成で非常に高い精度の動画を作り出すことが特徴です。その高い精度に惹かれ、私が注目しているモデルの一つです。
- アスペクト比:16:9
- 解像度:720p
- 長さ:8秒
- バリエーション:1パターンのみ(選択不可)
🎬 Veo 2で作成した動画:
個人的な見解としては、映像美の点ではSoraの方がやや優れていると感じる部分もありますが、Veo 2の安定した高品質な生成能力は非常に魅力的です。
使用したプロンプトを表示(Veo 2/3 共通)
A surreal and realistic 5-second video of a businessman in a formal suit commuting on a robot vacuum cleaner through a quiet city street in the early morning. The man looks serious and professional, carrying a briefcase as he slowly rides the vacuum cleaner like it's a normal commute. The background shows a modern office building and soft morning light. The scene is high-resolution and cinematic, with a humorous and deadpan tone.
Veo 3の紹介と特徴 🌟
Googleが新たに公開した動画生成AI「Veo 3」は、Veo 2の正統進化版として、さらなる進化を遂げています。
- ネイティブ音声生成: 映像に合わせた環境音、効果音、BGM、会話などを自動生成し、映像と完全に同期させます。Google DeepMind、Google Blog
- 高精度な映像品質と物理シミュレーション: リアルな物理挙動(重力、風、水など)を再現し、高解像度で詳細な映像を生成します。プロンプトへの忠実な理解と一貫性も特徴です。Google DeepMind、Google Cloud Vertex AI
- 多様な生成機能: テキストからの動画生成に加え、1枚の画像から動画を生成するImage to Video (i2v) 変換、既存動画の編集・拡張が可能です。Google DeepMind
- プロフェッショナルな制御: パン、チルト、ドリーなどのカメラ操作や、被写界深度、フォーカスコントロールといったシネマティックな視覚効果を実現します。Google DeepMind
- エコシステムとの統合: GeminiアプリやAI映画制作ツール「Flow」など、Googleの他のサービスとの連携が強化されています。Google AI Plans
- SynthIDウォーターマーク: AI生成コンテンツであることを示すデジタル透かし「SynthID」が埋め込まれます(Google AI UltraプランのFlowで生成された動画には表示されない場合もあります)。Google AI Plans
Veo 2との違い 📈
Veo 3とVeo 2の最も大きな違いは、音声付き動画の生成に対応した点です。 Veo 2では映像のみの生成でしたが、Veo 3ではプロンプト一つで会話、BGM、効果音、環境音、そしてそれらにシンクロした動作(リップシンク)を含む動画を生成できるようになりました。これにより、SNSなどで活躍するショート動画の作成がより効率的に行えるようになっています。
また、全体的な映像品質、プロンプト理解度、物理シミュレーションの精度も向上しています。
Veo 3で作成した動画と、その映像の特徴 💡
今回、Veo 3で「ロボット掃除機に乗って通勤するサラリーマン」の映像を生成してみました。Veo 3はVeo 2と同様に、非常に精度の高い映像を作り出します。
Soraでは、ロボット掃除機のデザインや走行する向きに不具合が出ることが多く、納得のいく動画を得るには根気強く生成を繰り返す必要がありました。😵
🎬 Veo 3で作成した動画:
Veo 3の特筆すべき点は、音声が自動で付与されることです。ロボット掃除機の吸引音や走行音が再現されています。(音声はイヤフォンで聞くと、より正確に確認できます。)
映像面では、Veo 2と同様に、ロボット掃除機に安定して立つビジネスマンが描かれています。特に、背景の街並みはVeo 2に比べてよりリアルで美しい描写です。
映像の美しさという点では、Veo 3はSoraに匹敵するクオリティに達したと感じています。Veo 2の映像がデジタルビデオのような印象だったのに対し、Veo 3ではまるで映画のようなシネマティックなクオリティに向上した印象を受けました。
なお、生成された動画の右下には、目に見える形で「Veo」というウォーターマークが追加されます。
SoraとVeo 3の徹底比較 📊
Veo 3(およびVeo 2)は、プロンプトの理解度と描写の正確さにおいて、Soraよりも優れていると感じます。今回の「ロボット掃除機に乗ったサラリーマン」の例で具体的に見てみましょう。
Veo 3の主な優位点
- プロンプトの忠実な再現: Soraでは描かれなかったブリーフケースが、Veo 3ではきちんと描かれています。💼
- 自然な描写: 特に指定しなくても、ビジネスマンは立った姿勢で、手前のカメラに向かってくるような自然な映像が生成されました。
一方、Soraでは、小さなロボット掃除機の上にビジネスマンを立たせるのが難しいという課題がありました。ディテールと迫力を優先すると、座ったバージョンが最も良い結果となりました。
Soraの意外な魅力:「拾い物」🎁
Soraは、時には意図しない「失敗作」の中に、思わぬ「拾い物」が見つかることがあります。これらは、AIの予測不能な創造性が生み出す、ユニークでユーモラスな映像なんです。Soraの持つ自由度の高さや、プロンプト解釈のユニークさが、時に予測不能な、しかし魅力的な結果を生むのかもしれません。😂
🎬 Sora ロボット掃除機が大きすぎる:
🎬 Sora ロボット掃除機をお散歩させる:
🎬 Sora ロボット掃除機にスケボーのように乗る:
🎬 Sora 後ろから車が来る(轢かれますよ):
私自身の現在のワークフローは、Soraである程度動画プロンプトを磨き上げ、最終的にVeo 2/3で完成版を作るというハイブリッドなアプローチです。この方法だと、Soraの創造性(ユニークさやユーモラスな表現)とVeoの精度(リアルさや安定性)を最大限に活用できると感じています。まさに良いとこ取り!🎯
まとめ 🌈
元々Veo 2の映像品質には非常に満足していましたが、Veo 3には音声も追加され、その精度も高いものであることが分かりました。有料でも良いので回数制限がない状態で使用できる日が来るのが待ち遠しいです。
AI動画生成の進化は目覚ましく、今後も表現の可能性がどんどん広がっていくことに大きな期待を寄せています。皆さんもぜひ、試してみてくださいね!