Quelques jours avant la restitution officielle des États généraux de l’information 2024, l’Institut national de l’audiovisuel (INA) a lancé son site data.ina.fr, une plateforme inédite qui donne accès à 27 millions d’heures d’archives audiovisuelles françaises. La combinaison de l’intelligence artificielle (IA) et de la datavisualisation rend cette interface intuitive et facilite l’exploration des données pour une analyse des grandes tendances médiatiques[i].
Accès libre sur 5 ans
Grâce à la convergence de trois expertises-clés de l’INA : la gestion documentaire du dépôt légal de l’audiovisuel français confié à l’INA en 1992, et qui couvre aujourd’hui 184 chaînes de télévision et de radio[ii], le savoir-faire éditorial du média patrimonial et des travaux de recherche pionniers dans l’IA, data.ina.fr offre un accès libre à un peu plus de 5 ans (du 1er janvier 2019 au 30 juin 2024) de données à explorer à travers des dizaines de questions et 28 graphiques interactifs, le tout dans une démarche pédagogique de sensibilisation aux outils d’IA.
Pour son lancement, ce site propose d’explorer les résultats statistiques d’un périmètre restreint à 13 chaînes de télévision et 7 chaînes de radio différentes[iii].
La grande particularité de ce site est de pouvoir visualiser les résultats chiffrés de l’analyse des sons de chaînes de télévision et de radio françaises. Ces analyses ont été effectuées via le traitement documentaire et des outils d’IA.
Avant de se plonger dans ces graphiques et cartographies, il est important de comprendre les règles méthodologiques établies pour ce site, les sources ainsi que les traitements mobilisés. Le site propose un lien destiné à aider à lire ces résultats en parfaite connaissance de cause[iv].
Les potentialités actuelles de ce site
L’opportunité ouverte par les solutions de génération automatisée de données est une réalité à laquelle l’INA a souhaité répondre en proposant ce site. Il concrétise et dynamise la réflexion sur la place des données générées automatiquement pour la description et la valorisation des collections audiovisuelles de l’INA.
Ce site a été pensé pour le plus grand nombre : amateurs de médias, journalistes, experts, chercheurs ou tout simplement curieux. Il propose des entrées thématiques, des questions pédagogiques et des réponses en graphiques interactifs accessibles à tous, et offre également différents niveaux de filtrage pour personnaliser les recherches des chercheurs ou étudiants qui peuvent les soumettre au Lab.
S’inscrivant dans une stratégie de long terme, engagée depuis plusieurs années, de production et d’exploitation des données issues de technologies développées en interne ou intégrées par l’INA, ce site illustre le positionnement de l’Institut comme média patrimonial à caractère différenciant.
De fait, le site dépasse les enjeux de la stricte découvrabilité, pour proposer une vue analytique des tendances de fond qui se cachent derrière les programmes diffusés. Cet angle, à la fois synthétique et fondé sur des données extrêmement fines et massives, n’aurait pas été envisageable sans le potentiel ouvert par les traitements automatisés permis par 3 technologies distinctes :
- INASpeechSegmenter : une technologie développée par l’INA qui permet de détecter la parole, la musique, le bruit et le genre du locuteur dans un document audiovisuel ;
- Whisper : le système de reconnaissance vocale d’OpenAI qui transcrit l’audio en texte ;
- TextRazor : outil développé par la start-up londonienne du même nom qui analyse et extrait des métadonnées sémantiques à partir de contenu textuel.
De l’industrialisation de la chaîne de traitement automatique des données, jusqu’aux processus de contrôle et à la fiabilisation des données « à l’échelle », les outils et les procédures créés pour ce site soutenu par un financement France Relance (Direction interministérielle du Numérique) au regard de sa dimension à la fois innovante et sociétale permettent d’offrir des modules génériques de datavisualisation.
Parmi les nombreuses offres de ce nouveau site figure le Baromètre INAStat, un outil de suivi de l’information télévisée qui classait chaque sujet de JT dans 14 rubriques calquées sur celles des rédactions selon des vues dynamique, historique, statistique ou cartographique selon la nature des questionnements. C’est le résultat du travail d’indexation des documentalistes de l’INA qui est mis en ligne, pour la première fois, sur la période 2000 à 2020.
Ce site propose par exemple des réponses aux questions suivantes :
- Quelles personnalités mentionne-t-on le plus dans les journaux télévisés ? sur les chaînes d’information en continu ? dans les radios ?
- Quels pays mentionne-t-on le plus dans les journaux télévisés ? sur les chaînes d’information en continu ? dans les radios ?
- Quels mots sont les plus prononcés dans les journaux télévisés ? sur les chaînes d’information en continu ? dans les radios ?
- Quelle est la répartition du temps de parole entre les femmes et les hommes sur les chaînes de radio et de télévision ? Comment évolue cette répartition ? Comment se répartit le temps de parole versus le temps de non parole ?
La charte de l’IA, instrument de la crédibilité du site
L’INA a choisi une stratégie inédite qui vise à bénéficier des grandes avancées des outils IA (700 000 heures analysées pour ce projet), sans intervenir sur les résultats malgré leurs imperfections. D’une part, des corrections ajouteraient inévitablement d’autres biais, humains cette fois-ci. D’autre part, une telle volumétrie rend cette démarche impossible si l’on veut en assurer l’exhaustivité, garante de l’homogénéité des résultats affichés. En revanche, grâce à la chaîne de contrôle des résultats créée spécifiquement pour ce projet, l’INA est en capacité de rendre visibles et d’expliciter ces biais.
L’objectif de data.ina.fr reste avant tout de proposer une expérimentation à grande échelle de l’IA comme un ensemble d’outils pour faire émerger des tendances de médiatisation. Les chiffres présentés sur ce site sont donc à prendre comme des indicateurs de tendance, pertinents sur le temps long. Au vu de l’évolution accélérée de ces outils, ce document est susceptible d’être mis à jour.
Parmi les principales innovations de ce projet figure incontestable la mise en place d’une charte de l’IA. En effet, dans le cadre de cette charte, l’INA s’engage sur 6 grands principes :
1. L’évaluation des outils IA
L’INA a mis en place des processus de Vérité terrain sur chacune des IA utilisées sur data.ina.fr, qui permettent d’afficher des taux de fiabilité pour chacune d’elles. Ces tests — réalisés sur des échantillons de médias représentatifs de l’ensemble — permettent de comparer les résultats délivrés automatiquement par les outils IA et ceux créés par des équipes de l’INA. Ils seront renouvelés régulièrement pour prendre en compte les évolutions des outils IA, et planifiés par décision collégiale en collaboration avec le service Recherche de l’INA.
2. La traçabilité des données
Une équipe contrôle les flux de données de manière exhaustive, de la captation à la mise en ligne sur le site data.ina.fr. L’INA capte en effet chaque jour et 24h/24 plus de 180 chaînes audiovisuelles (radio et TV) dans le cadre du dépôt légal. Ce sont ces fichiers qui sont ensuite utilisés dans la chaîne de production des données, pour laquelle l’INA s’assure de la complétude des tranches horaires présentées et de leur traitement IA effectif.
3. Un contrôle humain
Une équipe formée aux enjeux des IA utilisées sur data.ina.fr a été constituée. Elle contrôle la « pertinence » des résultats sur les personnalités, entendue comme la bonne correspondance entre le nom de la personnalité transcrite et détectée par les outils IA d’une part, la réalité de sa mention sur le fichier média originel d’autre part. Ce contrôle s’effectue sur toutes les chaînes concernées par les personnalités, sur des Tops 20 mensuels.
4. Le signalement et l’explication des biais détectés
Sur data.ina.fr, des « points d’attention » (signalés par un point d’exclamation orange sur les graphiques) sont associés aux personnalités pour lesquelles une non-correspondance a été identifiée entre les résultats des outils IA et le média originel via le contrôle de pertinence (voir engagement N°3). Les internautes accèdent ainsi à une plus grande transparence sur les anomalies détectées grâce aux investigations des experts de l’INA et peuvent exercer leur vigilance sur l’interprétation des chiffres.
5. Une gouvernance pluridisciplinaire
Sous la houlette de la direction éditoriale, différents corps de métiers (techniciens de la gestion des données, documentalistes, data scientists, data analystes, data journalistes…) sont engagés sur le projet pour en fixer les règles. Cette collégialité est essentielle car l’utilisation des outils IA sur une matière aussi complexe que la production audiovisuelle des médias français soulève des enjeux à la fois éditoriaux, technologiques, juridiques… au cœur de l’expertise métier de l’INA sur la gestion et l’analyse des médias audiovisuels.
6. L’acculturation du grand public aux données IA
Sur data.ina.fr, chaque graphique est accompagné d’éléments explicitant le mode de production et de visualisation des données à travers des espaces méthodologiques et des informations signalant à l’internaute que les données proviennent d’une IA. Une signalétique et un vocabulaire grand public ont été adoptés afin de rendre compte des « points d’attention » publiés. Dans le souci de donner à voir et à comprendre la production des résultats IA présentés sur data.ina.fr, les pages de méthodologies sont enrichies d’une série d’infographies sur le fonctionnement des IA mobilisées.
Cette initiative de l’INA articulée sur un usage « intelligent », lucide et pédagogique des potentialités d’analyse documentaire de l’IA mérite d’être saluée comme la marque la plus tangible de l’intérêt de cette technologie dans l’analyse a posteriori de l’information.
Ses limites actuelles et les opportunités à saisir à l’avenir
Sans que cela puisse lui être reproché à ce stade de développement, et même si l’INA a également en charge le dépôt légal du web français, soit la collecte continue de 16 069 sites web et 15 637 comptes de réseaux sociaux ou de plateformes de diffusion en ligne depuis 2009, ces contenus posent des questions méthodologiques spécifiques (en particulier d’homogénéité des périmètres et des représentations), il n’a pas été choisi de les intégrer pour cette phase de lancement de data.ina.fr afin de se concentrer sur les traitements IA des contenus télévisuels et radiophoniques.
Il va sans dire que ces éléments seront intégrés à l’avenir lorsque des réponses robustes auront été apportées à ces questions méthodologiques.
D’autres développements de cet outil novateur sont en cours.
Tourné aujourd’hui uniquement vers l’analyse documentaire différenciante d’un existant informationnel articulé uniquement sur une production et une diffusion d’origines humaines, il serait certainement des plus opportuns d’élargir le spectre d’analyse de cet instrument vers la production et la diffusion de l’information par recours à l’IA générative, et plus globalement aux technologies totales[v], ne serait-ce que c’est au travers de leur déploiement que les Bigtechs entrent de plein pied dans les jeux et enjeux géopolitiques en s’employant à s’opposer par la maîtrise des processus informationnels du futur au retour des États dans la gouvernance mondiale.
L’INA ayant coordonné et piloté le rapport de prospective sur le monde de l’information en 2050 pour le compte des États généraux de l’information, cet institut pourrait se voir appelé à entreprendre le moment venu l’intégration dans son site data.ina.fr d’autres types d’analyses exploratoires pour chacune des cinq grandes transformations qui façonneront le monde de l’information d’ici à 2050 sur la base des trois scenarii retenus lors de cette exercice[vi], ce qu’aucun autre organisme public n’a aujourd’hui mission d’entreprendre.
Voir aussi : Coups de projecteur sur la restitution officielle des États généraux de l’information 2024. Conclusion générale
Notes
- [i] Voir le dossier de presse associé : Dossier de presse data.ina.fr
- [ii] L’INA ne dispose toutefois pas de droits de diffusion en ligne de ces archives du dépôt légal, lesquelles sont mises à disposition des chercheurs, étudiants, enseignants via deux structures : le Lab et l’INAthèque.
- [iii] Télévision : Arte, Canal+, France 2, France 3, France 5, M6, TF1, TV5 Monde, BFM TV, CNews, LCI, France Info, France 24.
- Radio : Europe 1, France Culture, France Info, France Inter, Sud Radio, RMC, RTL.
- [iv] Règles générales data.ina.fr
- [v] Cf. Asma Mhalla : “Les Big Tech œuvrent à une privatisation du futur”
- [vi] Cf. Le monde de l’information en 2050 : quels scénarios ?