Générer des visuels cohérents dans une vidéo multi-prises est le problème le plus difficile de la production de vidéos par IA aujourd'hui. Les sujets changent de visage entre les prises. L'éclairage passe du coucher de soleil au milieu de la journée sans avertissement. La caméra passe soudainement de la vue à la première personne à la vue en drone. Vous obtenez six clips magnifiques qui ressemblent à six films différents.
Après avoir rendu plus de 10 000 vidéos multi-prises sur Shortlify, nous avons trouvé une formule de prompt en quatre parties qui maintient de manière fiable l'apparence cohérente. Elle fonctionne parce que les modèles de diffusion, laissés à eux-mêmes, optimisent la beauté par prise, et non la cohérence entre les prises. Vous devez forcer la main.
La formule : sujet, action, ambiance, caméra
Chaque description de scène doit répondre à ces quatre dimensions dans le même ordre, avec le même langage, pour chaque prise. Comme ceci :
SUJET — phrase nominale identique dans toutes les prises
ACTION — ce qui change entre les prises (le rythme de l'histoire)
AMBIANCE — descripteurs émotionnels identiques
CAMÉRA — choix de point de vue et de lentille identiquesLorsque le sujet, l'ambiance et la caméra restent identiques mot pour mot entre les prises, le modèle apprend que vous voulez dire le même personnage et la même tonalité. Seul le champ d'action est autorisé à varier.
Exemple : un bébé renard endormi dans une paume
Prise 1 : Petit bébé renard endormi dans ma main, lumière douce du matin, point de vue à la première personne, objectif 35mm. Le renard lève lentement la tête.
Prise 2 : Petit bébé renard endormi dans ma main, lumière douce du matin, point de vue à la première personne, objectif 35mm. Le renard bâille et s'étire.
Prise 3 : Petit bébé renard endormi dans ma main, lumière douce du matin, point de vue à la première personne, objectif 35mm. Le renard se recouche et ferme les yeux.Remarquez comment 80 % de chaque prompt est identique. Seule la dernière phrase change — c'est le rythme de l'action. Le modèle lit cela comme « même scène, nouveau moment » plutôt que « trois vidéos différentes ».
Erreurs courantes à éviter
- Changer la phrase du sujet entre les prises. « Bébé renard » dans la prise 1 et « renard mignon » dans la prise 2 brise l'identité.
- Laisser l'ambiance dériver. « Paisible » dans une prise, « mystérieux » dans la suivante — la palette change.
- Changer le vocabulaire de la caméra. « Point de vue à la première personne » et « prise de point de vue » ne sont pas les mêmes pour le modèle.
- Ajouter trop d'adjectifs à l'ambiance. Deux est le maximum. Plus, c'est du bruit.
Pourquoi cela fonctionne
Les modèles de diffusion sont conditionnés par le texte du prompt. Lorsque le texte est principalement identique, la distribution de sortie du modèle est principalement identique — même apparence du sujet, même éclairage, même cadrage. Seule la partie que vous avez changée se déplace dans l'espace latent. Vous écrivez essentiellement une histoire en langage naturel, ce qui est exactement ce que les storyboards sont faits pour.
Jusqu'à ce que nous ayons des jetons de personnage et de style explicites (nous y travaillons), le prompt lui-même est votre seul levier. Utilisez-le.
À votre tour
Choisissez une idée de 3 prises et essayez la formule. Écrivez votre sujet, votre ambiance et votre ligne de caméra une fois — puis écrivez trois rythmes d'action. Collez-les dans Shortlify et comparez le résultat aux prompts libres. Le saut de cohérence est immédiat.