MPeg4 : au-delà de la vidéo

Platines DivX, télévision haute définition, TNT : il ne se passe pas un jour sans que l’on parle de MPeg4. Pourtant, dans tous ces cas, le terme est impropre. Au mieux, ces technologies sont des dérivés, des ersatz basés sur le MPeg4. Car ce standard multimédia ne saurait être réduit à de la simple compression vidéo. En apportant, notamment, de l’interactivité, il ouvre une ère nouvelle dans le codage de l’image animée.

La vidéo sous pression

Depuis sa naissance, la vidéo numérique souffre d’un problème de poids. En mode Pal (le standard européen), une seconde de vidéo est composée de 24 images de 768 x 576 pixels, ce qui représente un peu plus de 20 Mo… sans le son ! Difficile, dans ces conditions, d’imaginer stocker ou faire circuler de la vidéo ‘ brute de décoffrage ‘ : pour la diffuser, il faudrait disposer de ‘ tuyaux ‘ capables de soutenir un débit d’au moins 20 Mo/s, soit plus de 160 Mbit/s ! Du coup, il est indispensable de compresser le signal, en limitant les pertes d’informations inhérentes à ce genre d’opération. C’est ce à quoi travaille un groupe de scientifiques : le Motion Picture Expert Group (MPEG). Sa mission : définir les standards de la vidéo numérique. En 1993, cette communauté s’est donc penchée sur l’élaboration d’un nouveau standard, dédié plus spécifiquement au bas débit : le MPeg4. Il s’agissait, au début, de permettre la diffusion de vidéos sur les écrans de téléphones portables. Mais très vite, les recherches ont pris un tour nouveau.Le MPEG a, en effet, modifié la manière de penser la compression vidéo. Là où le MPeg1 et 2 se contentent d’encoder des pixels, sans s’occuper de ce qu’ils représentent, le MPeg4 s’intéresse au contenu, et introduit la notion d’objets.Chaque image de la vidéo est ainsi décomposée : un personnage, une voiture, un fond fixe, une voix, une musique… On parle d’objets médias, regroupés en grandes familles (les objets vidéos, les objets sons, etc.). Chacun peut bénéficier d’un traitement spécifique adapté à sa nature (voir illustration). Un tel système permet un gain de place évident : imaginons une speakerine sur un fond fixe. Codé une fois, le fond n’a plus besoin, ensuite, d’être traité.Pour décrire ces objets, le MPeg4 a un langage : le Bifs (Format binaire pour les scènes), qui détaille leur taille, leur forme, etc., ainsi que leurs mouvements. Mais le Bifs permet aussi de définir le comportement des objets en fonction de l’utilisateur ; en clair, d’introduire de l’interactivité dans la vidéo. Un clic sur un sportif à l’écran (défini comme l’objet vidéo sportif), et on obtient toutes ses statistiques.

Sur les bases du MPeg2

Si la compression orientée objets est l’une des révolutions apportées par le MPeg4, ce n’est pas la seule. Images animées, son, images fixes : tous connaissent aussi leur lot d’innovations. Mais c’est la compression vidéo qui intéresse le plus les professionnels de l’image. Les prouesses du MPeg4 en la matière sont telles que, partis pour de la vidéo sur GSM, les chercheurs ont accouché d’un format adapté aux larges écrans (avec une définition pouvant atteindre 4 096 x 4 096 pixels) et aux touts petits. Deux types de compressions sont principalement appliqués : une compression intraimage (pour chaque image) et une compression dite temporelle (voir illustration page précédente). Le MPeg4 partage, en cela, un large héritage avec le MPeg2. La compression intra-image repose principalement sur ce que l’on appelle la transformation en cosinus discrète (DCT), une fonction mathématique permettant de transformer une image en fréquences. Les informations superflues se trouvant concentrées dans les hautes fréquences, il est très facile alors de les éliminer. Pour que la DCT soit efficace, il faut, auparavant, découper chaque image en une mosaïque de petits blocs, de 8 x 8 ou 16 x 16 pixels : les macroblocs. Plus la surface de travail est faible, plus le traitement est pertinent.La compression temporelle fonctionne différemment : en vidéo, deux images qui se suivent se ressemblent ; bien peu de macroblocs diffèrent d’une image à l’autre. Rien ne sert de tous les coder dans leur intégralité. On définit donc des images complètes, appelées images I (images clés ou keyframes), qui contiennent tous les macroblocs. Entre, on intercale des images P (prédictives) et B (bidirectionnelles), qui ne contiennent que ce qui a changé (voir illustration page précédente). Cette séquence d’images IPB forme un Gop (Group of Pictures). Plus les images clés sont espacées, plus le Gop est grand et plus la qualité de l’image diminue. Mais le MPeg4 peut se permettre un Gop important (il est virtuellement illimité avec ce standard), grâce à de nouveaux algorithmes qui évitent les erreurs dans les images incomplètes P et B.

Pillage organisé

En bouleversant la manière de penser la compression vidéo, le MPeg4 ouvre un nouveau champ de possibilités. Toutefois, bien peu, aujourd’hui, semblent prêts à suivre cette voie. Apple, Real ou Microsoft (membres du MPEG) ont ainsi développé des formats de compression et de décompression vidéo basés sur le MPeg4. Mais ils ont délaissé l’orientation objets. Seule la compression vidéo pure semble intéresser les industriels, qui s’en sont inspirés pour créer le DivX ou le H264. On a gagné en qualité. La révolution, elle, attendra…

Les éléments de la vidéo sont séparés en objets

La séquence vidéo (non compressée) représente un monstre sur un fond fixe s’agitant en musique. Ces trois éléments (monstre animé, fond fixe, musique) sont séparés par l’encodeur MPeg4, pour devenir des objets médias. Une des plus grandes erreurs est de penser que l’encodeur peut retrouver les objets comme par magie ; séparant de lui-même, le fond du monstre. Un tel algorithme n’existe pas encore, sauf dans le cas de quelques encodeurs temps réel réservés aux événements sportifs. Ce que l’on sait seulement faire, aujourd’hui, c’est fournir séparément les objets à l’encodeur.

L’objet vidéo est compressé

L’objet vidéo monstre (une séquence vidéo du monstre seul, sans le fond) est traité par l’encodeur. En Pal, on compte 24 images par seconde (24 plans objets vidéo, en langage MPeg4). Chacune est découpée en macroblocs de 8 x 8 pixels, afin qu’il soit possible de leur appliquer un traitement de transformation en cosinus discrète (DCT) ; une sorte de compression JPeg, en fait. A l’aide de ces macroblocs, l’encodeur définit ensuite des images de référence (images I). Entre, il intercale des images P (prédictives) et B (bidirectionnelles), qui correspondent aux différences perceptibles entre deux images I. Pour créer ces images P et B, l’encodeur recherche les macroblocs identiques entre les images et indique leur déplacement grâce à un vecteur de mouvement. Alors que le MPeg2 était limité à un seul vecteur, le MPeg4 peut en définir jusqu’à 4 par macrobloc.

L’objet image est traité

L’objet fond fixe ne subit pas le même traitement qu’un personnage. L’encodeur a, pour lui, une compression spécifique, à base d’ondelettes (wavelet). C’est la même technologie que l’on retrouve, par exemple, dans le Jpeg2000. Par rapport au Jpeg, on estime le gain de place, pour la même qualité, à environ 25 %.

L’objet musique est travaillé

Pour l’objet musique aussi, l’encodeur a un traitement spécifique. Il dispose de différents codecs, suivant le type de son (musique, voix de femme, voix d’homme, etc.). Le plus connu est l’Advance Audio Coding (AAC), qui existait déjà en MPeg2. Il se base, comme cela a toujours été le cas avec le MPeg-audio, sur l’algorithme Musicam, fondé sur les mécanismes de perception de l’oreille humaine : ce que l’oreille ne perçoit pas est exclu. Les améliorations du MPeg4 concernent surtout la précision d’analyse dans ce domaine. De plus, grâce au langage Bifs, le son peut être positionné dans l’espace afin, par exemple, de gérer automatiquement l’obstruction d’un bruit par un mur.

Les objets sont regroupés

Les trois objets sont réunis. L’encodeur leur adjoint un fichier texte, écrit en langage Bifs. Y sont décrits, notamment, les objets, ainsi que leur comportement dans le temps et dans l’espace. Indispensable pour que le décodeur s’y retrouve. Ces quatre éléments sont ensuite encapsulés dans un même fichier, dont l’extension est MP4.

Mpeg4 : Les produits dérivés

Windows Media

Microsoft n’a jamais été clair quant aux emprunts faits au MPeg4 pour la création de son codec vidéo, Windows Media. Au commencement était l’ASF, ancêtre du WM. A l’époque, Microsoft n’hésitait pas à parler de MPeg4, alors qu’il s’agissait simplement de l’emprunt de la portion vidéo des spécifications du MPeg4 (aucune interactivité, pas d’objets médias). Renommé Windows Media, pour éviter toute confusion, le format de Microsoft a, depuis, suivi un chemin différent de celui du standard. A débit identique, il offre aujourd’hui une qualité d’image supérieure au MPeg4.

DivX

Le premier format DivX fut le DivX ;), emprunté à l’ASF de Microsoft. Là aussi, il ne s’agit pas vraiment de MPeg4, puisque l’on est uniquement dans le domaine de la compression audio et vidéo, sans aucune définition d’objets ou interactivité. Même remarque pour le XviD ou le 3ivX, basés eux aussi sur le standard MPeg4, mais qui n’en supportent pas toutes les spécifications.

H264

Aussi appelé H26L, le H264 est le format de compression retenu pour la diffusion de la télévision haute définition, en 1 920 x 1 080 pixels, et pour la téléphonie mobile. Dérivé du MPeg4 (mais uniquement centré sur la vidéo et l’audio), il améliore, à la marge, le standard défini en 1998. Deux avancées principales : des macroblocs de 4 x 4 pixels et un nouveau type dimages dans le Gop, les images SP. Ces dernières, qui prennent la place de certaines images P, permettent de faire le lien entre les séquences codées avec des débits différents.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Marc de Suzzoni