IA multimodale : Perception artificielle et reconnaissance faciale

L’approche multimodale expliquée

« Notre intuition nous fait croire que nos sens sont des flux d’informations distincts. Nous voyons avec nos yeux, entendons avec nos oreilles, touchons avec notre peau, sentons avec notre nez et goûtons avec notre langue. En réalité, le cerveau utilise les informations partielles de chaque sens pour générer une réalité virtuelle que nous appelons conscience. Il s’agit de la meilleure hypothèse de notre cerveau pour imaginer à quoi ressemble le monde. Mais cette hypothèse n’est pas toujours la bonne. »

Dr David Ludden

Dr David Ludden est professeur de psychologie au Georgia Gwinnett College. Dans cet extrait, il souligne le fait que la perception humaine est subjective.

Il explique également comment le cerveau utilise une approche multimodale (plusieurs sens) pour mieux percevoir les scénarios externes et tirer des conclusions.

Tesla Model 3S  Multimodal AI
De la même façon qu’une Tesla utilise une technologie multidimensionnelle pour comprendre son environnement, le cerveau humain s’appuie sur une approche multimodale pour percevoir ce qui l’entoure. Image

La multimodalité, c’est quoi ?

La multimodalité est un terme qui infiltre doucement mais sûrement notre vocabulaire de tous les jours. Mais que signifie-t-il vraiment, et d’où vient-il ?

Dérivé des mots latins multus, qui signifie « nombreux » et modalis, qui signifie « mode », le terme « multimodalité », dans le contexte de la perception humaine, correspond simplement à l’utilisation de plusieurs modalités sensorielles pour comprendre le monde qui nous entoure. Lorsque ces modalités sont combinées, elles créent une vision du monde unique.

Cette idée ne date pas d’hier. En réalité, elle remonte à nos ancêtres, il y a des centaines de milliers d’années. Selon la psychologie comparée, dans le monde des primates, la langue elle-même a des origines multimodales. Les psychologues pensent que la communication est segmentée en trois modalités, parmi lesquelles la vocalisation, les gestes et les expressions faciales.

On pourrait donc avancer que la multimodalité de la perception du monde extérieur repose en réalité sur la nature humaine. Dans un contexte technologique, comment les machines sont-elles capables de reproduire cette capacité profondément humaine ? Qu’est-ce qu’une IA multimodale ?

Human Perception Multimodal Approach
Les chercheurs pensent que le cerveau traite les informations sonores et visuelles de façon similaire, ce qui indiquerait que la perception des informations est intrinsèquement multimodale. Image

L’IA multimodale

La perception multimodale va au-delà du monde de la technologie. En intelligence artificielle, on appelle apprentissage multimodal la combinaison de plusieurs sources de données réunies en un seul modèle d’IA (source).

Ceci dit, l’approche multimodale de la perception humaine a évolué avec le temps, aboutissant à une compréhension plus complexe (et puissante) du monde qui nous entoure.

De la même façon, cette approche peut être appliquée à la capacité des technologies à évoluer et reconnaître des situations grâce à l’IA multimodale.

IA et faux positifs

Si on en revient à l’idée selon laquelle on peut comprendre la réalité grâce à une analyse multimodale humaine, il en va de même pour les machines. Il existe un parallèle intéressant entre la réalité et les faux positifs de l’IA (perception de la machine). En effet, tous les algorithmes cognitifs ont un « score de confiance ». Plus ce score est élevé, plus il est fiable, et donc plus il correspond à la réalité.

Aujourd’hui, les ordinateurs sont plus proches que jamais de répliquer la perception humaine du monde extérieur. Le problème ? Le machine learning et la perception artificielle traditionnels sont plus proches d’un rêve que de la perception humaine. De nombreuses machines sont programmées pour reconnaître une seule modalité et manquent donc d’un point de vue multimodal. Elles ne perçoivent que des éléments en suspension, mais n’ont aucune idée précise de ce qu’il se passe.

Sans la perception multimodale, l’élimination des faux positifs et l’analyse contextuelle, la qualité d’interprétation est réduite.

Les faux positifs doivent donc être pris en compte, c’est-à-dire qu’une machine doit comprendre qu’une photo de quelqu’un n’est pas forcément une vraie personne. C’est l’idée derrière le machine learning multimodal avancé.

Newsbridge Multimodal AI
Par le passé, les machines n’étaient pas capables de détecter les faux positifs, mais grâce à la reconnaissance contextuelle actuelle, c’est maintenant possible. Image

Exemples de technologies multimodales

Selon l’Association Européenne pour les Ressources Linguistiques, les technologies multimodales se caractérisent par « l’association de plusieurs éléments extraits de plusieurs modalités (texte, audio, image, etc.) ». Ça vous parle ?

En voilà quelques exemples :

  • reconnaissance vocale automatique (audiovisuel) ;
  • détection des personnes (audiovisuel) ;
  • détection d’événement (audiovisuel) ;
  • suivi des objets ou personnes (audiovisuel) ;
  • estimation de la position de la tête ;
  • reconnaissance des gestes.
Machine Learning Newsbridge
Comment le machine learning change-t-il la façon dont nous vivons et travaillons ? Image

Nous venons d’établir le fait que la perception humaine est subjective. En réalité, c’est également le cas des ordinateurs. ‌À une époque où le machine learning change notre mode de vie et de travail, l’IA, grâce à une approche multimodale, est capable de percevoir et de reconnaître les scénarios externes. Cette approche imite la perception humaine, et donc également ses défauts.

Par ailleurs, certaines technologies d’IA peuvent percevoir les informations 150 fois plus rapidement qu’un humain. Grâce à ces innovations, nous nous rapprochons d’une imitation parfaite de la perception humaine… et les possibilités sont infinies.

Limites de l’interprétation

Même s’il est bien connu que nous avons la capacité exceptionnelle d’encoder et de décoder des situations réelles complexes via une approche multimodale, cette aptitude a des limites.

Malgré notre capacité avancée et innée à reconnaître une grande variété d’objets, de situations et de personnes, le monde qui nous entoure n’est pas toujours à l’image de ce qui nous apparaît (impressions, sons, etc.).

Comme l’explique le psychologue D. R. Proffitt :

« La perception est flexible, pas figée. »

Source

En tant qu’humains, notre perception est naturellement subjective. Sur le plan évolutif, notre cerveau n’a pas été programmé pour ressentir nos cinq sens de façon individuelle. Ainsi, comme mentionné précédemment, notre perception est naturellement multi-sensorielle pour façonner une perception plus précise du monde.

Psychologie humaine : Facteurs multimodaux de perception

En vérité, ce que nous percevons du monde extérieur est en fait le reflet direct de notre état d’esprit. Autrement dit, nous pouvons percevoir les situations externes de différentes façons en fonction de toute une multitude de facteurs, dont voici une liste non exhaustive : souvenirs, expériences passées, culture, genre, âge, centres d’intérêts, éducation, etc.

Comme la perception humaine, le machine learning connaît des biais cognitifs.

Optical Illusion
Le vase de Rubin, une illusion d’optique qui affecte notre perception. Image

Pour comprendre et communiquer la réalité, ou notre perception subjective de la réalité, en nous basant sur une vision multimodale, il y a plusieurs facteurs à prendre en compte. Notre cerveau le fait automatiquement.

Dans un souci de simplicité, voici les facteurs multimodaux que nous utilisons le plus souvent :

  1. Le visuel,
  2. Le son,
  3. Les connaissances/l’apprentissage (contexte).

La réalité n’est pas toujours telle qu’elle apparaît : L’exemple de Greta Thunberg

Lorsqu’il nous manque une modalité de perception, les choses peuvent se compliquer. Prenons l’exemple suivant :

Pour la plupart des gens, Greta Thunberg ressemble et parle comme une adolescente de 16 ans. Si vous ne la connaissez pas, vous pourriez penser qu’elle a une vie plutôt banale.

En réalité, si vous regardez le journal télévisé, vous reconnaissez probablement cette adolescente suédoise, devenue l’une des militantes écologistes les plus importantes de sa génération après avoir lancé plusieurs manifestations devant le parlement suédois en 2018. Son message est clair et concis : elle appelle à agir plus activement contre le changement climatique à l’échelle internationale.

Voici une vidéo dans laquelle Thunberg met en garde contre l’impact du changement climatique.

Du jour au lendemain, Thunberg a pris la tête de la « grève étudiante pour le climat », attirant ainsi l’attention à l’échelle internationale. Des étudiants du monde entier ont participé au mouvement Fridays for Future, qui consiste à quitter son établissement scolaire pour manifester en faveur de l’action contre le réchauffement climatique.

Après avoir pris connaissance de ses initiatives grâce au contexte de l’actualité, le visage de cette adolescente suédoise revêt un tout nouveau rôle. Thunberg est maintenant un symbole, le visage de la révolution et du combat contre le changement climatique à la plus grande échelle jamais connue dans l’histoire de l’humanité.

Cet exemple prouve que parfois :

  • ce que nous voyons peut changer ce que nous entendons ;
  • ce que nous entendons peut changer ce que nous voyons ;
  • ce que nous savons contextuellement peut changer ce que nous voyons et entendons.

À propos de Newsbridge

Newsbridge est un media hub dans le cloud pour gérer des flux lives et archives multimédias.

À l’aide d’une IA d’indexation multimodale et d’une méthode d’indexation axée sur les données, Newsbridge offre un accès sans précédent au contenu en détectant automatiquement les visages, les objets, les logos, les textes écrits, les transcriptions audio et le contexte sémantique.

Que ce soit pour gérer ou accéder à des enregistrements de directs, des moments forts, des archives, ou pour récupérer, présenter ou monétiser du contenu, cette solution permet de gérer efficacement et intelligemment ses assets médias.

À ce jour, notre plateforme est utilisée par des chaînes de télévision, agences de presse, ayants droit sportifs, sociétés de production, journalistes, éditeurs et documentalistes du monde entier pour augmenter leur flux de production et le retour sur investissement de leurs contenus.