← Blog

SkyReels V4 vs SkyReels V2 : Dans quelle mesure le modèle s'est-il vraiment amélioré ?

SkyReels est passé de la génération de vidéos de longueur infinie (V2) à la génération conjointe audio-vidéo (V4). Voici exactement ce qui a changé, ce qui s'est amélioré, et pour quoi chaque version reste la meilleure.

9 min read
SkyReels V4 vs SkyReels V2 : Dans quelle mesure le modèle s'est-il vraiment amélioré ?

Bonjour, je m’appelle Dora. Je ne prévoyais pas de comparer SkyReels cette semaine. Je voulais juste un clip de fond en boucle pour une maquette de page d’accueil, et ma configuration habituelle me semblait plus lourde que nécessaire. Ce poids minime — cliquer à travers d’anciens nœuds, attendre les aperçus, deviner le timing audio — m’a fait marquer une pause. J’ai alors mis V2 et V4 côte à côte et fait tourner les mêmes prompts sur les deux. Non pas pour désigner un gagnant. Juste pour voir où le travail se sentait plus léger.

Si vous êtes ici pour un verdict simple, vous ne le trouverez pas. SkyReels V2 et V4 résolvent des pièces différentes du puzzle. Voici mes notes de terrain sur “skyreels v4 vs v2”, rédigées après quelques sessions réelles entre février et mars 2026.

Une brève chronologie de la famille SkyReels

V1 (centré sur l’humain, fév. 2025) → V2 (longueur infinie) → V3 (expériences audio) → V4

J’ai touché SkyReels pour la première fois autour de la V1, début 2025. Ça ressemblait à un projet soigné, avec l’humain dans la boucle, plus lent mais régulier. La V2 est arrivée et a discrètement déplacé le centre de gravité : vidéo “infinie” via le diffusion forcing. Pas infinie au sens poétique du terme — de vraies séquences non bornées dans lesquelles on pouvait continuer à injecter des images.

La V3 a exploré l’audio plus sérieusement. Je me souviens d’une synchronisation correcte sur les temps vocaux, mais ça donnait encore l’impression de deux trains sur la même voie : l’audio d’un côté, la vidéo de l’autre, se faisant signe de loin.

La V4 resserre tout ça. Des priorités différentes, des réglages par défaut différents. Ce n’est pas tant une mise à jour linéaire qu’une redéfinition de ce que signifie “une unité de rendu”. Avec la V4, un clip devient un artefact cohérent — audio et vidéo produits ensemble, à une qualité native supérieure, avec une limite de durée. Cette limite est un compromis intentionnel.

Ce que la V2 faisait vraiment bien

Diffusion forcing pour la vidéo infinie

La première fois que j’ai utilisé le diffusion forcing de la V2 pour du long format, j’ai dépassé les limites. Je l’ai laissé tourner pendant le déjeuner et je suis revenue sur quatre minutes de mouvement étrangement cohérent, comme un visualiseur musical qui aurait oublié de s’arrêter. C’était à la fois l’excitation et le risque : on pouvait continuer indéfiniment. En pratique, j’ai appris à le traiter comme une caméra qui tourne jusqu’à ce que j’aie suffisamment de mouvement naturel à couper.

Pour les fonds en boucle, les textures, les mouvements abstraits, V2 portait le poids. Le soulagement mental venait de ne pas jongler avec des redémarrages ou des horodatages. Je définissais une direction, puis je gardais ou taillais selon les besoins. Quand j’ai voulu un fond de 45 à 60 secondes pour une page d’événement le mois dernier, la V2 y est arrivée en une seule passe. Pas de couture, pas de frontières de scène.

Open-source, compatible ComfyUI

J’ai aussi apprécié la façon dont la V2 s’intégrait dans mon graphe existant. Des nœuds ComfyUI, des snippets communautaires, quelques petites modifications personnalisées — je pouvais garder mes habitudes en place tout en réaménageant les grandes lignes. Si vous avez un setup hétéroclite (c’est mon cas) et que vous collaborez parfois avec des gens qui apportent leurs propres graphes (aussi moi), la V2 s’entend bien avec tout le monde. C’est plus important qu’il n’y paraît. Le temps économisé ne se compte pas qu’en minutes : c’est aussi moins de ramifications mentales. Moins de “où est passé ce nœud convertisseur ?”

J’ai remarqué que la V2 était indulgente côté matériel, aussi. Pas bon marché à faire tourner, mais je pouvais réduire la voilure sans que tout s’effondre. Si quelqu’un m’envoyait un preset, ça “fonctionnait juste” après quelques ajustements mineurs. C’est une force ennuyeuse. J’aime les forces ennuyeuses.

Ce que la V4 change fondamentalement

L’audio devient un citoyen de première classe

Dans V4, l’audio n’est pas une réflexion après coup. Il est intégré d’emblée. J’ai testé ça en générant un court clip promo pour une bande-annonce de podcast le 27 février, puis à nouveau le 2 mars avec un fond vocal légèrement différent. La V4 a synchronisé l’emphase visuelle sur la grosse caisse et la caisse claire plus proprement que n’importe quel pipeline V2 que j’avais assemblé. Pas parfait, mais suffisamment naturel pour que je n’aie pas besoin de recourir aux keyframes.

La version simple : la V2 pouvait attacher l’audio ; la V4 compose avec lui. Si votre travail dépend de visuels calés sur des beats ou d’un rythme guidé par la voix, la V4 réduit le travail manuel.

Architecture unifiée vs pipelines séparés

Ce que ça a donné concrètement : moins de commutateurs dans ma tête. Dans l’univers V2, je pensais en “monde audio” et “monde vidéo” et je passais du temps à coller des décisions entre les deux. Dans la V4, je fournis un brief unique et je laisse le modèle porter le contexte sur les deux flux. Quand j’ai ajusté l’emphase du voiceover (une ligne plus douce, une ligne plus marquée), la V4 a rééquilibré les coupes et les mouvements en conséquence. Avec la V2, ça aurait nécessité une reconstruction partielle.

Avantage moins visible : moins de passages à risque. Le nombre de fichiers que je transférais entre les étapes a diminué. Mon dossier de projet avait l’air plus calme — moins d’exports temporaires, moins de rituels de nommage. C’est petit, mais ces petites choses indiquent si un outil respecte la façon dont les gens travaillent réellement.

Bond en résolution et en qualité

Le saut visuel de la V4 s’est manifesté surtout dans les contours et la cohérence du mouvement. Les détails fins, les panneaux, les textures de tissu, les cheveux contre une fenêtre — tout tenait plus longtemps avant de se brouiller. Sur mes sessions, la clarté native en 1080p s’est avérée fiable ; les upscales en 4K se tenaient mieux que mon ancien stack V2. J’ai encore vu de légères scintillations sur les diagonales fines, mais moins de ces images “peinture à l’huile” qui glissent dans les longues séquences V2.

Deux mises en garde que j’ai notées :

  • La qualité de la première image en V4 est forte, mais une légère micro-trépidation initiale peut apparaître sur des scènes complexes. Elle se stabilise généralement à la troisième ou quatrième seconde.
  • La couleur tient mieux en V4, mais des changements de grade agressifs en milieu de clip peuvent perturber le modèle. J’ai obtenu des résultats plus propres en gradant après l’export plutôt qu’au moment du prompt.

Dans l’ensemble, si votre livrable est une courte pièce soignée avec le son intégré, les réglages par défaut de V4 vous y amènent avec moins de détours.

Ce que la V2 remporte encore

La longueur vidéo (V4 = 15 s max, V2 = infinie)

C’est l’évidence. La V4 est limitée à 15 secondes pour l’instant. Pour les teasers sociaux, les intros ou les boucles produit, c’est suffisant. Pour les toiles d’ambiance, les longues explications ou les murs de galerie, non. Le mode “laisse tourner” de la V2 fait encore plus sens pour tout ce qui dépasse la demi-minute. Je n’ai pas besoin de planifier des frontières de scène à l’avance. Je peux découvrir le moment au milieu et tailler vers l’extérieur.

J’ai essayé de simuler la longueur en V4 en chaînant des rendus. Techniquement, ça a marché, mais je sentais la couture. Le flux changeait à chaque jonction, comme splitter deux chansons dans la même tonalité mais avec des batteurs différents.

Support matériel et d’intégration plus large aujourd’hui

La V2 a une queue plus longue dans la nature. Plus d’exemples, plus de nœuds communautaires, plus de posts de gens résolvant des cas limites que vous rencontrerez aussi. Si vous travaillez sur des machines mixtes (il m’arrive de passer entre un poste studio et un laptop de voyage), la tolérance aux variations de la V2 aide. J’ai chargé le graphe V2 d’un collègue la semaine dernière et il a tourné après un seul patch. Le workflow V4 équivalent semblait plus exigeant sur l’environnement et les versions.

Si votre stack s’appuie sur ComfyUI-plus-helpers-aléatoires, la V2 pose moins de questions. Ça peut faire la différence entre livrer aujourd’hui et passer un après-midi à déboguer une chaîne de dépendances.

Guide de décision : V2 ou V4 ?

Voici comment je formulerais les choses après une semaine de runs en aller-retour et quelques vraies livraisons.

Choisissez V4 si :

  • Votre rendu fait moins de 15 secondes et doit sembler fini directement à la sortie.
  • L’audio compte — synchronisation sur les beats, rythme guidé par la voix, ou mouvement piloté par la musique.
  • Vous valorisez moins de pièces mobiles, même si ça signifie moins de place pour les expériences longue durée.

Choisissez V2 si :

  • Vous avez besoin de séquences de plus de 15 secondes sans coutures apparentes.
  • Votre workflow est déjà fortement axé ComfyUI et vous échangez des presets avec des collaborateurs.
  • Vous acceptez un travail de finition plus manuel en échange d’une longueur ouverte et d’une compatibilité plus large.

Ce qui m’a surpris

  • V4 a réduit l’éparpillement de mes projets. Moins de fichiers temporaires, moins de stems à moitié cuits. C’est une autre forme de rapidité — moins de changements de contexte.
  • La V2 donnait encore plus l’impression d’argile. Je pouvais la pousser et l’étirer sans que le modèle me ramène vers un état d’esprit “clip court”.

Pourquoi c’est important

La plupart d’entre nous n’a pas besoin d’un outil de plus. Nous avons besoin de moins d’étapes et de résultats plus stables. La V4 oriente vers la finition. La V2 oriente vers l’ouverture. Aucune n’est universellement meilleure. Tout dépend de la forme de votre journée.

Si vous travaillez sous contrainte de délais avec des formats courts, la V4 est le chemin le plus serein. Si vous construisez des toiles d’ambiance, des visuels live, ou tout ce qui respire au-delà de 15 secondes, la V2 vous laisse les mains libres.

Ça a fonctionné pour moi — votre kilométrage peut varier. Je garderai probablement les deux installées. L’une pour finir avec le son, l’autre pour quand je veux juste laisser la caméra continuer à tourner. La petite question qui me trotte dans la tête : la V4 lèvera-t-elle un jour cette limite sans perdre sa cohérence ? J’aimerais bien. Mais je ne suis pas pressée.