by ByteDance

Seedance 2.0 — ネイティブオーディオを統合した、映画のようなマルチモーダルAI動画生成モデル。

Seedance 2.0は、ByteDanceが開発した高度なマルチモーダル動画基盤モデルです。テキスト、画像、動画、音声を統合し、完璧に同期したネイティブサウンドと複雑な物理演算を伴う、極めてリアルでマルチショットな映像を生成します。

text-to-videoimage-to-videovideo-to-videoaudio-to-videopublic
Try Seedance 2.0
Seedance 2.0 — ネイティブオーディオを統合した、映画のようなマルチモーダルAI動画生成モデル。

Seedance 2.0 is a text-to-video / image-to-video / video-to-video / audio-to-video model from ByteDance. It is currently in public stage (since 2026-02-12).

What Seedance 2.0 Can Do

  • ネイティブオーディオ生成

    ポストプロダクションでの編集を必要とせず、動画生成時に同期された台詞、環境音、背景音楽を単一のパスで同時に作成します。

  • マルチモーダルリファレンスミキシング

    インラインの「@」タグを介して最大12個の参照アセット(画像9枚、動画3本、音声3クリップ)を同時に受け入れ、出力生成を正確にガイドします。

  • シーン拡張と編集

    既存の動画を編集し、特定のオブジェクトを置き換えたり、元のカメラモーションを維持したまま、その後の展開を予測してシーンをシームレスに拡張します。

  • マルチショットストーリーテリング

    時空間の移動があっても、キャラクターの一貫性、視覚的なスタイル、環境を維持し続けます。

Why Seedance 2.0 Is Different

  • 「duration: -1」というインテリジェントな時間制御機能を統合しており、モデルがリクエストされたコンテンツに最適なクリップの長さを自律的に決定します。
  • ペアフィギュアスケートのような複数の参加者が関与する競技シーンにおいて、現実世界の物理法則に厳密に従いながら信頼性の高い生成を行える初めての基盤モデルです。
  • 業界で最も包括的なリファレンス・タギング・システムを搭載しており、単一のテキストプロンプト内で最大9枚の画像、3本の動画、3つの音声ファイルを明示的に紐付けて指定できます。

These claims are drawn from ByteDance's own positioning and should be verified against hands-on testing once general access opens.

Specifications

1ショットあたりの最大時間15秒
出力解像度1080p (フルHD)
1生成あたりの最大入力アセット数12個

Who Uses Seedance 2.0

映画製作者およびスタジオ

Scenario: 複雑な人間同士のインタラクションを伴うマルチショットの物語シーンを監督する。

Outcome: 現実に即した物理法則、一貫したキャラクター、カメラ移動のフレームレベルでの制御を実現し、映画のようなストーリーテリングを達成します。

マーケティングおよび広告チーム

Scenario: プロモーションキャンペーン、製品紹介、着せ替え動画のドラフトを迅速に作成する。

Outcome: 撮影セットを組むことなく、音楽と動的に同期した洗練された高精細なコマーシャル動画を制作できます。

動画コンテンツクリエイター

Scenario: 既存のクリップを拡張したり、ショット内の背景やキャラクターを入れ替える。

Outcome: 元の動きや美学を完璧に一致させながら、新しいクリエイティブな方向性を映像にシームレスに統合できます。

Seedance 2.0 vs Alternatives

vsOnSeedance 2.0Them
Sora (OpenAI)オーディオ統合完全に同期されたリップシンクとオーディオを、単一の統合されたパスで有機的に生成します。これまで静止画や動画の生成に特化しており、サウンドデザインにはサードパーティツールが必要になることが一般的です。
Kling 3.0複雑なマルチアセット入力構造的な「@」タグを通じて、最大12個のマルチモーダルリファレンス(画像、音声、動画)を同時に組み合わせるディレクターレベルの制御をサポートしています。キャラクターの一貫性は高いですが、音声、視覚、モーションの参照を同時に混合するための包括的な統合フレームワークとしては、Seedance 2.0の方が堅牢です。
Runway Gen-3 Alpha複雑なモーション物理演算複数の参加者が関与する競技スポーツシーンや、現実世界の物理法則に厳密に従った複雑なインタラクションを確実に生成できます。基本的なインタラクションは良好ですが、激しい接触を伴うスポーツや複雑な複数人での動きでは、構造的な安定性を保つのが難しい場合があります。

FAQ

Seedance 2.0とは何ですか?
Seedance 2.0は、ByteDanceが開発した高度なマルチモーダル動画生成モデルです。テキスト、画像、動画、音声を入力として受け取り、同期されたサウンドを伴う高品質な1080pの映画のような動画クリップを生成します。
Seedanceは動画と一緒に音声を生成しますか?
はい。Seedance 2.0は、音声と動画を単一のプロセスで同時に生成します。これにはリップシンクされた台詞、効果音、背景音楽が含まれており、ポストプロダクションでの重ね合わせ作業が不要です。
Seedanceで生成できる動画の長さはどのくらいですか?
Seedance 2.0は、1ショットあたり最大15秒間の詳細な動画クリップを生成でき、さらにマルチショットの連続性をサポートしているため、それらを繋ぎ合わせてより長い物語を作成することも可能です。
なぜハリウッドはSeedanceを懸念しているのですか?
リリース後、主要な映画スタジオやMPAは、ByteDanceが著作権で保護された映画や番組を使用してSeedanceをトレーニングしたと告発しました。その根拠として、許可されていない著名人のそっくりさんや著作権で保護されたキャラクターがバイラル的に生成されている点を挙げています。

Try Seedance 2.0 Today

Seedance 2.0は、ByteDanceが開発した高度なマルチモーダル動画基盤モデルです。テキスト、画像、動画、音声を統合し、完璧に同期したネイティブサウンドと複雑な物理演算を伴う、極めてリアルでマルチショットな映像を生成します。

Get Started