Criadores de conteúdo curto
Scenario: Gerando B-roll e clipes de reação para posts em redes sociais
Outcome: Cadência de conteúdo diário sem necessidade de filmagem com câmera
by Alibaba ATH Innovation Division
Modelo de geração de vídeo 2D do Alibaba, da mesma equipe ATH Innovation responsável pelo Happy Oyster, focado na produção de clipes curtos a partir de textos e prompts de imagem.

Happy Horse is a text-to-video / image-to-video model from Alibaba ATH Innovation Division. It is currently in public stage (since 2026-03-10).
Produz clipes de vídeo curtos diretamente a partir de prompts em linguagem natural.
Anima uma imagem estática em um clipe curto com movimento de câmera controlável.
Fornece intenção de movimento de nível superior (panorâmica da câmera, ação do objeto) além do prompt base.
Une vários planos gerados em uma sequência única e coerente.
These claims are drawn from Alibaba ATH Innovation Division's own positioning and should be verified against hands-on testing once general access opens.
| Tipo de saída | Clipes de vídeo 2D ✓ |
|---|---|
| Duração máxima do clipe | Não documentado oficialmente ? |
| Resoluções | Níveis de 720p / 1080p reportados ~ |
| API | Acesso público via tryhappyhorse.xyz ✓ |
| Preço | Em níveis, detalhes não finalizados ~ |
Scenario: Gerando B-roll e clipes de reação para posts em redes sociais
Outcome: Cadência de conteúdo diário sem necessidade de filmagem com câmera
Scenario: Produzindo loops de demonstração de produto a partir de uma única imagem principal
Outcome: Variações de criativos publicitários em minutos por SKU
| vs | On | Happy Horse | Them |
|---|---|---|---|
| Happy Oyster | Paradigma de saída | Clipes de vídeo 2D | Mundo 3D interativo |
| Sora | Ecossistema do provedor | Stack Alibaba ATH | Stack OpenAI |
| Kling | Posicionamento geográfico | Distribuição alinhada ao Alibaba | Distribuição alinhada ao Kuaishou |
Modelo de geração de vídeo 2D do Alibaba, da mesma equipe ATH Innovation responsável pelo Happy Oyster, focado na produção de clipes curtos a partir de textos e prompts de imagem.