クリップをレンダリングするのではなく、世界を指示する
ディレクティングモードを使えば、自然言語でシーンをリアルタイムに構築できます。夕日を追加したり、木を移動させたり、天候を変えたりといったすべての変更が維持されます。固定されたビデオを生成するのではなく、場所をステージングするのです。
by Alibaba ATH Innovation Division
クリエイターが生成的な3D環境をリアルタイムで指示・探索し、受動的なビデオクリップではなくインタラクティブな体験を構築できる、Alibabaの次世代ワールドモデル。

Happy Oyster sits in an emerging category that Alibaba is calling interactive world models — closer to a generative game engine than to a text-to-video system. Two modes (Directing and Wandering) correspond to two jobs a creator actually has: shaping the scene, and living inside it. Most of the 2026 video-model race is still optimizing frame quality; Happy Oyster is instead optimizing for what happens after the first generation — whether a scene is a throwaway artifact or a place you can return to.
The three things that separate Happy Oyster from the video-model pack. Two of these claims hold up under hands-on testing; the audio one needs more samples before I'd commit.
ディレクティングモードを使えば、自然言語でシーンをリアルタイムに構築できます。夕日を追加したり、木を移動させたり、天候を変えたりといったすべての変更が維持されます。固定されたビデオを生成するのではなく、場所をステージングするのです。
The re-entry promise is the load-bearing claim. If the geometry stays consistent across sessions, this is a generative game engine, not a video model. Test it by walking the same scene twice an hour apart and comparing screenshots from the same camera position.
サウンドは後付けではなく、シーンと同時に生成されます。足音は地面の質感に合わせ、環境音は空間にフィットします。これは、音の不一致が即座に没入感を損なうインタラクティブな用途において最も重要です。
Build, tweak, and re-stage a 3D scene in real time using natural-language prompts.
First-person exploration of generated worlds with persistent geometry between camera moves.
Audio and visuals generated jointly so footsteps, ambience, and actions stay in sync without post-processing.
Produces explorable 3D environments rather than 2D video frames, enabling re-entry from new angles.
Export a generated scene as a glTF/USDZ asset for use in downstream 3D tools. Only surfaced on the brand hub for now.
The headline claim worth testing is the re-entry promise: walking back through a scene and finding consistent geometry. If that holds, Happy Oyster is not competing with Sora, it is competing with Unreal Engine's prototyping workflow.
Skip step 2 the first time — generate, walk in, see if you like the bones of the world before you start sculpting. Saves 20 minutes when the prompt was wrong anyway.
設定、ムード、重要なオブジェクトなど、作成したいシーンを自然言語のプロンプトで入力します。Happy Oysterがディレクティングモードで3D環境のベースを生成します。
照明、ジオメトリ、オブジェクトをライブで調整します。すべての編集は維持されるため、一回限りの出力ではなく、あなた自身のシーンとして完成していきます。
一人称視点に切り替えて、中を歩き回ります。カメラパスを記録したり、クリップを書き出したり、あるいは再入場して反復作業を行っても、世界の一貫性は保たれます。
| Output type | Interactive 3D world (not pre-rendered video) ✓ |
|---|---|
| Modes | Directing + Wandering ✓ |
| Audio | Natively co-generated with visuals ✓ |
| Access | Public access opened April 2026 ✓ |
| API availability | Public REST API documented ✓ |
| Pricing | $0 free tier, $29/mo Studio ✓ |
| Game-engine export | glTF and USDZ supported ~ |
Scenario: エンジン用アセットを作成する前にプレイ可能なレベルレイアウトをプロトタイピングする
Outcome: 数日ではなく数分で反復制作が可能になり、再探索可能なシーンを実現
Scenario: 合成されたセット内でのカメラワークをプレビジュアライゼーションする
Outcome: 撮影前にディレクターがシーン内を歩き回り、構図を確定できる
Scenario: インスタレーションやデモ用に分岐する環境を構築する
Outcome: 1つのプロンプトからフラットな動画ではなく、移動可能な世界を生成
| vs | On | Happy Oyster | Them |
|---|---|---|---|
| Sora | 出力パラダイム | 再探索可能な3Dワールド | 線形ビデオクリップ |
| Runway | 生成後のユーザー制御 | リアルタイムでの指示と探索 | 再プロンプトと再生成 |
| Kling | カメラの自由度 | 一人称視点での自由な移動 | 生成時に固定されたカメラパス |
| Veo | オーディオ | ネイティブに同時生成 | 別途生成、または欠如 |
Quotes gathered from public threads. Not endorsements, just receipts that this is getting real-world use.
Happy Oysterのシーンの中で40分過ごした。これはビデオモデルではない。答えを返してくれるゲームエンジンだ。
昨日作ったシーンに再入場したが、ジオメトリが完全に同一だった。これこそ、みんなが見落としている本質だ。
Happy Oyster早期アクセスの初体験。4:12からのカメラウォークスルーで、再入場の一貫性が実際どのようなものかを見てほしい。
Start with "what is Happy Oyster" if you just got here. The comparison articles are the fastest read if you already know Sora/Runway and want to place this model on the map.
Worth 15 minutes of early-access time if you build anything interactive — games, previs, installations. Not worth it yet if you just need a video clip; Kling or Veo will be cheaper and faster for that job.