À coté du tumulte de ses cartes RTX de la série 3000, NVIDIA fait une petite avancée technologique discrète mais néanmoins impressionnante. Celle-ci a été dévoilée par le constructeur dernièrement. Ainsi en utilisant un réseau de neurones, NVIDIA a trouvé comment transmettre la vidéo (presque) sans transmettre une seule image de celle-ci. De plus cela se fait en réduisant la bande passante utilisée pour la transmission.

On vous laisse apprécier cela en vidéo.

Transmettre de la vidéo avec efficacité

NVIDIA investit massivement dans l'IA

Qui n’a jamais eu une vidéo-conférence et vu son interlocuteur devenir une bouilli de pixels. Transmettre de la vidéo de bonne qualité n’est pas a la portée de toutes les connexions. Cela génère beaucoup de trafic réseau surtout. C’est ce qui s’est passé lors du confinement du confinement, là où des outils comme Discord et Zoom ont explosé.

Alors qu’aujourd’hui on compresse les flux vidéo avec des algorithmes sophistiqués. Grâce à quoi on peut réduire la taille des données transmise en gardant la meilleure qualité possible.

Un des algorithmes les plus connus et utilisé est le codec H.264. Sans entré dans les détails techniques, son principe est d’envoyer régulièrement une image entière (dite « clé ») et entre les deux ne garder que les pixels modifiés.

S’il s’avère que l’image clé n’a pas été transmise correctement (voire trop lentement), on voit apparaitre de la soupe de pixels – à la façon Skype. Bien connu de tous ce phénomène est dû des logiciels qui n’arrivent pas reconstruire une image complète. Même si l’évolution des protocoles de compression comme le H.265 promet une évolution performance de compression, mais le problème reste entier.

Conversation NVIDIA façon DeepFake et Apple Animoji

NVIDIA par son invention montre qu’au lieu de faire passer un flux n’avoisinant que les quelques centaines de kilo-octets il est possible de reconstruire l’image par intelligence artificielle.

Pour arriver à cette prouesse NVIDIA utilise un outil qui a fait pas mal parler de lui : le Deepfake. Du l’entreprise s’en inspire avec quelque chose qui s’en rapproche furieusement.

Une image clé ou de « référence » est envoyé au début de la transmission. Un réseau neuronal a la réception décode les caractéristiques du visage. Ensuite l’émetteur n’aura qu’a envoyer les mouvement des points de référence du visage analysé : bouche, nez, yeux, front, etc. Le réseau neuronal va ainsi les appliquer a l’image de référence les modifications pour la faire bouger.

Une comparaison très parlante est la technologie d’Apple avec les Animoji. Ici on applique les mouvements du visage a un personnage, qui est dans ce cas notre propre photo.

Le résultat

Ce qu’on peut dire ce que les résultats sont assez bluffant. En outre la qualité de la vidéo produite est plus que correcte et pour ma part j’ai été impressionné de voir que le visage reste naturel – même si ce n’est pas encore parfait. Ainsi on ne perd pas l’émotion transmise, ce qui est peut fondamentalement pour un entretien être un atout que cela soit professionnel ou non.

L’une des améliorations prévue est d’utiliser quelque chose du type de Free View. Cette technique permet de changer la direction du regard de l’interlocuteur et de garder un meilleur contact entre les deux personnes.

Au lieu de regarder la caméra, l’IA nous fait regarder artificiellement l’écran

Bientôt en vidéo-conférence ?

Dans une ère ou la connectivité devient un enjeu avec l’arrivée de la 5G et ce qu’une technologie comme celle-ci a encore sa place ? On a ici la possibilité de réduire le débit utilisé pour les zones difficiles comme en campagne ou dans le spatial avec une mission sur Mars. Pour le grand public si on ne verra pas cette technologie de si tôt, on peut imaginer qu’elle soit intégrée dans les téléphones. Pour rappel de plus en plus de smartphones embarquent un composant de réseau de neuronnes.