Processus de génération de Calibrating Stretched Transparency

Pour approfondir la façon dont nous avons généré Calibrating Stretched Transparency nous expliquons comment nous avons collaboré avec l’intelligence artificielle (IA) et les outils de projection cartographique et mettons en évidence leurs biais souvent négligés.

1. L’ intelligence Artificial (IA) pour créer les paysages

Générer les images de paysage initiales à l’aide de réseaux neuronaux (ou d’apprentissage automatique).

Au cours des premières étapes de notre projet, nous avons travaillé avec deux algorithmes d’apprentissage machine[1]: CLIP[2] and VQ-GAN.[3]

VQ-GAN est un « générateur d’image »[4]

utilisant le réseau neuronal traditionnel de vision par ordinateur. Il est pré-formé sur des ensembles de données étiquetés à la main (comme ImageNet et COCO).

CLIP est un modèle permettant de déterminer quelle légende convient le mieux à une image.

Utilisés ensemble, CLIP et VQ-GAN utilisent du texte comme entrée pour générer des images que les algorithmes d’apprentissage automatique prédisent comme ressemblant le plus au texte.

La clé de notre recherche est la capacité de Clip à connecter divers langages naturels et à produire des images qui ne font pas partie de son ensemble de données apprises. Contrairement aux modèles de vision par ordinateur traditionnels qui génèrent des images proches de leurs ensembles de données ou de leurs réseaux pré-formés. Avec cette capacité, CLIP est capable de faire le saut dans le développement d’images entièrement nouvelles et diversifiées qu’il détermine être les meilleures représentations du texte donné.

Par exemple, bien que CLIP n’aurait jamais été formé sur une image décrite comme suit, la saisie de la phrase « une forêt mécanique dans les profondeurs de l’océan où les plantes pourpres marchent sur pilotis » produirait une image pertinente.

Une autre couche de complexité ajoutée à ce projet est que CLIP n’est pas formé à la méthode traditionnelle des images étiquetées manuellement pour créer un ensemble de données, mais est formé sur 400 millions d’images étiquetées à partir d’Internet[5]. La prise en compte de cela nous oblige à considérer la nature des images et l’effet rhizomatique qui vient avec Internet, par opposition aux images étiquetées et choisies manuellement.

landscape portion#1
Portion du paysage généré

2.  L’intelligence artificielle (IA) face à des questions d’éthique

Pour notre projet, les caractéristiques de CLIP et VQ-GAN produisant des images basées sur des entrées de texte étaient particulièrement intéressantes pour explorer les biais et les modes de perception intégrés dans certains outils tels que les réseaux de neurones.

Comme le CLIP est noté pour avoir une robustesse ou un taux de réussite d’identifier correctement les images avec un texte d’environ 75%[6], nous pourrions remettre en question les propriétés et les valeurs d’un réseau de neurones considéré avec succès – en particulier celui qui est capable de produire des images en dehors de son ensemble de données appris.  L’une des façons dont nous avons exploré cette ligne de questions était d’inciter le réseau neuronal avec des questions éthiques liées à la géo-ingénierie et à l’IA. Certains mots et expressions que nous avons explorés avec les réseaux de neurones sont les suivants:

« agir | quelqu’un d’autre responsable | échoue | solution | | de privilèges premier monde”
“augmenter | | de conformité | de sécurité utopie | fiducie”
“audit | diversité | solution”
“disproportion | tout ce qui n’est pas illégal va | | de sécurité dystopie | fiducie”
“agir | quelqu’un d’autre responsable | échoue | solution »

Portion de paysage généré
Portion du paysage généré

3. L’intelligence artificielle (IA) pour raffiner les paysages

Débroussaillage d’image et restauration d’image inversée :

Plus loin dans notre processus, nous avons amélioré les détails de nos images de paysage à l’aide de réseaux de neurones.

Les réseaux de neurones sont couramment utilisés pour la restauration et la génération d’images. Le débroussaillage et l’augmentation de la résolution des images ont traditionnellement été effectués par des méthodes apprises[7] où un réseau de neurones apprend à quoi une image doit ressembler à travers un ensemble de données préétabli. Alors que d’autres méthodologies comme expliqué plus tôt[8], ont montré la capacité de ne prendre en compte que l’image dégradée plutôt que d’exiger de grands ensembles de données et des réseaux relatifs[9].

En tenant compte des complexités des deux méthodologies, nous pouvons développer davantage une ligne de questions où nous nous demandons comment les biais au sein de ces réseaux appris, ou l’absence possible de biais dans les méthodologies antérieures explicites, pourraient affecter la façon dont nous utilisons les outils et apprenons à connaître le monde grâce à ces outils.

Portion de paysage généré
Portion du paysage généré

4. Les outils de cartographie et leurs distortions

Projeter nos images avec des formules de cartographie standard.

La cartographie d’une zone du monde nécessite un processus systématique d’aplatissement d’une surface du globe dans un plan 2D.[10].

La particularité de ce processus a à voir avec le fait qu’il y aura nécessairement des distorsions dans n’importe quelle carte. Il y a une grande quantité de projections cartographiques possibles (comme on le voit dans notre projet), et chaque projection produite a tenu compte des distorsions qui sont acceptables et de celles qui ne le sont pas, aux fins spécifiques de la carte. Ces distorsions sont représentées à l’aide des indicatrices de Tissot (cercles rouges) dans la figure A pour la projection de Behrmann et dans la figure B pour la projection de Mercator.

En utilisant G.Projector, développé par la NASA[11], nous avons eu la capacité de projeter nos paysages générés à travers des formules de projection traditionnelles qui ont ces propriétés choisies et des exceptions intégrées dans la sortie de la carte.

Portion de paysage généré
Portion du paysage généré
Bibliographie:
[1] Mieux connues sous le nom d’architectures de réseaux neuronaux
[2] https://openai.com/blog/clip/
[3] https://compvis.github.io/taming-transformers/
[4] https://alexasteinbruck.medium.com/vqgan-clip-how-does-it-work-210a5dca5e52
[5] https://openai.com/blog/clip
[6] https://openai.com/blog/clip
[7] https://towardsdatascience.com/demystifying-deep-image-prior-7076e777e5ba
[8] https://towardsdatascience.com/demystifying-deep-image-prior-7076e777e5ba
[9] https://towardsdatascience.com/demystifying-deep-image-prior-7076e777e5ba, https://dmitryulyanov.github.io/deep_image_prior
[10] https://en.wikipedia.org/wiki/Map_projection
[11] https://www.giss.nasa.gov/tools/gprojector/
Portion de paysage généré
Portion du paysage généré

Le projet Calibrating Stretched Transparency a été généreusement soutenu par le Fonds Scotiabank pour l’IA et la société de l’Université d’Ottawa, les facultés d’ingénierie et des arts (uOttawa) et le Conseil de recherches en sciences humaines du Canada.

Shopping Basket