Microsoft Bing a annoncé une nouvelle technologie d’intelligence artificielle qui apportera une expérience d’image 4K aux sites Web via Microsoft Edge, améliorant automatiquement les images des sites Web. La technologie, appelée Turing Image Super-Resolution, permet d’afficher les images à haute résolution, quelle que soit la qualité de l’image d’origine.
La nouvelle technologie a été développée par Microsoft Équipe de développement du projet Turing AI.
Déjà utilisé dans Bing Maps
La nouvelle technologie est déjà utilisée dans Bing Maps pour améliorer la qualité de leurs images aériennes par satellite.
Vous trouverez ci-dessous une comparaison d’images aériennes du siège social de Google à Mountain View, en Californie.
La capture d’écran de Bing Maps est à gauche et l’image correspondante de Google Maps est à droite :
Bing Maps contre Google Maps
Comment Microsoft a construit la technologie
Quatre idées importantes ont conduit au succès du modèle.
- Évaluateurs humains
- Modélisation du bruit
- Perte de perception et de GAN
- Transformers for Vision : Améliorer et zoomer
Évaluateurs humains
Microsoft s’est rendu compte que les mesures utilisées pour mesurer le succès des modèles liés à l’image ne correspondaient pas à la perception visuelle humaine. Ils ont donc créé un outil de comparaison visuelle côte à côte qui a utilisé des évaluateurs humains pour aider à évaluer le succès du modèle.
Modélisation du bruit
Microsoft a adopté l’approche consistant à commencer par des images de haute qualité, puis à les dégrader en leur ajoutant du bruit, puis en apprenant au modèle à ramener l’image à son état de haute qualité d’origine.
Perte de perception et de GAN
Cela faisait partie des efforts visant à aligner les résultats sur la vision humaine.
L’annonce de Microsoft a déclaré:
« … nous avons constaté que l’optimisation de nos modèles en utilisant uniquement la perte de pixels entre les images de sortie et les images de vérité terrain n’était pas suffisante pour produire la sortie optimale alignée sur la perception de l’œil humain.
En réponse, nous avons également introduit la perte perceptuelle et GAN et réglé une combinaison pondérée optimale des trois pertes en tant que fonction objective.
Transformateurs pour la vision
Microsoft a tiré parti de la puissance des transformateurs utilisés dans les modèles de langage, en se concentrant sur l’amélioration et le zoom.
Cela signifie améliorer l’image et se concentrer également sur la mise à l’échelle de l’image, ce qui est une chose difficile à faire.
Généralement, il est facile de réduire une image. Mais prendre une petite image et la mettre à l’échelle finit généralement par magnifier les artefacts à basse résolution de l’image originale.
Les chercheurs ont donc créé un système capable de calculer et de « récupérer » les données d’image manquantes à partir de l’image de résolution inférieure et de les amener à une résolution plus élevée.
Microsoft appelle le processus de mise à l’échelle d’une image, DeepZoom.
Edge : TV 4K des navigateurs Web
Microsoft envisage cette nouvelle fonctionnalité d’intelligence artificielle comme un moyen d’apporter une expérience visuelle 4K à la navigation sur le Web, ainsi que d’améliorer les réunions vidéo et les photos de famille téléchargées sur le Web.
La technologie est déjà disponible dans la version expérimentale d’Edge appelée Bord Canari.
La nouvelle fonctionnalité sera déployée sur la version grand public du navigateur Edge au cours des prochains mois.
Citation
Lire l’annonce de Microsoft