Nvidia a développé une IA qui crée, en quelques secondes, une scène 3D à partir de photos...

Nvidia vient de présenter une nouvelle technologie d’intelligence artificielle capable de générer presque instantanément une scène 3D à partir de « quelques douzaines de photos ».
Baptisée Instant neural radiance fields (Instant NeRF), elle est capable d’entraîner « un petit réseau neuronal » en l’espace de quelques secondes à partir d’une flopée de photos, à condition toutefois de bien connaître les angles de prises de vue. Le modèle résultant permet ensuite de générer toutes les données nécessaires pour créer l’environnement 3D de la scène en question. Un calcul qui, selon Nvidia, ne nécessite que quelques « dizaines de microsecondes ».

Dans une vidéo YouTube, l’entreprise américaine fait la démonstration de cette nouvelle technologie, qui s’appuie évidemment sur des outils internes comme Cuda Toolkit ou Tiny Cuda Neural Networks.
Ainsi, on voit une personne au milieu d’une salle qui est photographiée de plusieurs côtés, et, magie de la technologie, on navigue autour d’elle dans un espace tridimensionnel.

S'abonner à 01net

Créer des scènes 3D à partir de photos n’est pas nouveau. L’innovation principale, selon Nvidia, est la vitesse d’exécution. Le calcul serait plus de mille fois plus rapide qu’avec les technologies habituelles, qui nécessiteraient des heures pour aboutir au même résultat. Les usages envisageables seraient multiples.

« La technologie pourrait être utilisée pour entraîner des robots et des voitures autonomes à comprendre la taille et la forme d’objets du monde réel en capturant des images 2D ou des séquences vidéo.
Elle pourrait également être utilisée dans l’architecture et le divertissement pour générer rapidement des représentations numériques d’environnements réels que les créateurs peuvent modifier et développer », explique Nvidia dans une note de blog.

Cette transformation n’a pas non plus besoin d’une grande puissance de calcul. Une seule carte graphique serait suffisante, dans la mesure où le réseau neuronal est de petite taille. Mais il y a quand même un bémol : il est préférable que la scène photographiée soit immobile.

« S’il y a trop de déplacements pendant le processus de capture d’images 2D, la scène 3D générée par l’intelligence artificielle sera floue », prévient l’entreprise. Mais le futur ne l’est-il pas toujours un peu ?

Source : Nvidia

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Gilbert KALLENBORN