Le futur de l’indexation par l’IA est multimodal

Par Philippe Petitpont, CEO de Newsbridge

Pourquoi l’intelligence artificielle multimodale est essentielle pour exploiter pleinement le potentiel de votre médiathèque.

Les perturbations causées par la pandémie ont accéléré la migration des contenus audiovisuels vers le cloud de nombreuses organisations. Mais rendre les assets médias accessibles depuis n’importe où n’est que la première étape. Pour réellement améliorer le workflow des équipes de production et leur permettre de gérer des contenus qui s’accumulent en continu, les fichiers multimédias doivent être recherchables simplement et avec précision.

Le problème des IA « traditionnelles »

Les chaînes de télévision, les agences de presse et les ayant droits sportifs se tournent vers la transcription, qui est la solution d’indexation par l’IA la plus couramment utilisée. Il est sans aucun doute plus efficace d’y recourir plutôt que de transcrire manuellement le contenu ingéré. Cependant, ce système d’IA standard et unimodal a ses limites. En effet, il peut nuire aux grandes quantités de médias entrants que les organismes de diffusion doivent gérer chaque année. Une indexation mal optimisée peut être à l’origine de résultats de recherche biaisés et de nombreux faux positifs.

En analysant uniquement la parole, l’IA peut passer à côté d’éléments visuels importants et ainsi freiner le travail des équipes de production et des documentalistes.

Prenons l’exemple d’une personne qui cherche des images d’archives sur plusieurs années pour clarifier l’opinion d’un politicien sur le changement climatique, ou pour créer un best-of des meilleurs buts de Mohamed Salah, ailier droit au Liverpool FC, lors du Championnat d’Angleterre de football. L’indexation des transcriptions peut omettre des informations essentielles sur le lieu de l’événement et sur la présence d’autres personnalités importantes.

Dans cette situation, utiliser l’IA Multimodale de Newsbridge pour trier ses médias peut avoir un impact considérable.

Une revalorisation des assets médias

Cette technologie est conçue pour imiter notre compréhension de l’environnement. Plutôt que de se baser sur une seule source d’indexation, l’IA Multimodale passe en revue des centaines d’heures de contenus audiovisuels et détecte :

  • les objets, 
  • le contexte,
  • la géolocalisation,
  • le texte,
  • les visages,
  • les Wikidata,
  • les logos de marques et autres formes visuelles,
  • les paroles, qu’elle peut transcrire et traduire dans plus de 100 langues.

En exploitant la mémoire collective, l’apprentissage personnel, la parole et les notions d’espace et de temps, les métadonnées assignées par l’IA Multimodale lors de l’indexation mènent les utilisateurs au moment précis qui les intéresse et leur fournissent le contexte spécifique dont ils ont besoin.

Un utilisateur peut alors paramétrer des dossiers pour collecter automatiquement toutes les photos ou séquences vidéos correspondant à son besoin. La technologie d’indexation est améliorée en continu grâce à l’apprentissage par renforcement. En effet, l’équipe R&D de Newsbridge travaille au développement de différentes fonctionnalités, comme la détection du locuteur et la transcription multilingue, entre autres.

Un apprentissage personnalisé pour une plus grande précision

Le potentiel d’amélioration de l’IA Multimodale de Newsbridge intéresse tout particulièrement les équipes en charge des médias. En effet, l’IA peut être entraînée à l’aide d’un thésaurus personnalisé de personnes, d’objets et d’actions connectés à Wikidata.

Par exemple, le LOSC, club de football français, a importé des informations essentielles sur ses joueurs et ses intervenants lors de la migration de ses assets médias (plus de 2 000 heures de vidéos et 60 TB d’archives), afin de permettre à l’IA d’identifier les différentes personnalités du club. La chaîne multiplateforme et arabophone Asharq News, disponible 24h/24 et 7j/7, qui indexe jusqu’à 1 500 heures de vidéos par mois, entraîne l’IA à détecter et reconnaître des personnes, objets, actions et situations spécifiques, en anglais et en arabe.

Les équipes doivent être capables de gérer une accumulation constante de nouveaux contenus, de les archiver et de les stocker indéfiniment. Mais stocker des contenus sans les indexer correctement reviendrait à les noyer dans la masse. L’IA Multimodale de Newsbridge fournit l’une des technologies de détection et d’indexation les plus avancées du marché, avec un taux de réussite de plus de 95 % tout en permettant l’intégration des métadonnées extraites avec des plateformes tierces.