Ojim.fr
PUBLICATIONS
Yann Barthès, Dilcrah, Netflix, Frontex, Bellingcat... Découvrez les publications papier et numériques de l'Observatoire du journalisme.
→ En savoir plus
PUBLICATIONS
Yann Barthès, Dilcrah, Netflix, Frontex, Bellingcat... Découvrez les publications papier et numériques de l'Observatoire du journalisme.
→ En savoir plus
Un regard inédit de l’INA sur les médias grâce aux intelligences artificielles : data.ina.fr

25 octobre 2024

Temps de lecture : 10 minutes
Accueil | Veille médias | Un regard inédit de l’INA sur les médias grâce aux intelligences artificielles : data.ina.fr

Un regard inédit de l’INA sur les médias grâce aux intelligences artificielles : data.ina.fr

Temps de lecture : 10 minutes

Quelques jours avant la restitution officielle des États généraux de l’information 2024, l’Institut national de l’audiovisuel (INA) a lancé son site data.ina.fr, une plateforme inédite qui donne accès à 27 millions d’heures d’archives audiovisuelles françaises. La combinaison de l’intelligence artificielle (IA) et de la datavisualisation rend cette interface intuitive et facilite l’exploration des données pour une analyse des grandes tendances médiatiques[i].

Accès libre sur 5 ans

Grâce à la con­ver­gence de trois exper­tis­es-clés de l’I­NA : la ges­tion doc­u­men­taire du dépôt légal de l’au­dio­vi­suel français con­fié à l’I­NA en 1992, et qui cou­vre aujour­d’hui 184 chaînes de télévi­sion et de radio[ii], le savoir-faire édi­to­r­i­al du média pat­ri­mo­ni­al et des travaux de recherche pio­nniers dans l’IA, data.ina.fr offre un accès libre à un peu plus de 5 ans (du 1er jan­vi­er 2019 au 30 juin 2024) de don­nées à explor­er à tra­vers des dizaines de ques­tions et 28 graphiques inter­ac­t­ifs, le tout dans une démarche péd­a­gogique de sen­si­bil­i­sa­tion aux out­ils d’IA.

Pour son lance­ment, ce site pro­pose d’explorer les résul­tats sta­tis­tiques d’un périmètre restreint à 13 chaînes de télévi­sion et 7 chaînes de radio dif­férentes[iii].

La grande par­tic­u­lar­ité de ce site est de pou­voir visu­alis­er les résul­tats chiffrés de l’analyse des sons de chaînes de télévi­sion et de radio français­es. Ces analy­ses ont été effec­tuées via le traite­ment doc­u­men­taire et des out­ils d’IA.

Avant de se plonger dans ces graphiques et car­togra­phies, il est impor­tant de com­pren­dre les règles méthodologiques établies pour ce site, les sources ain­si que les traite­ments mobil­isés. Le site pro­pose un lien des­tiné à aider à lire ces résul­tats en par­faite con­nais­sance de cause[iv].

Les potentialités actuelles de ce site

L’op­por­tu­nité ouverte par les solu­tions de généra­tion automa­tisée de don­nées est une réal­ité à laque­lle l’INA a souhaité répon­dre en pro­posant ce site. Il con­cré­tise et dynamise la réflex­ion sur la place des don­nées générées automa­tique­ment pour la descrip­tion et la val­ori­sa­tion des col­lec­tions audio­vi­suelles de l’INA.

Ce site a été pen­sé pour le plus grand nom­bre : ama­teurs de médias, jour­nal­istes, experts, chercheurs ou tout sim­ple­ment curieux. Il pro­pose des entrées thé­ma­tiques, des ques­tions péd­a­gogiques et des répons­es en graphiques inter­ac­t­ifs acces­si­bles à tous, et offre égale­ment dif­férents niveaux de fil­trage pour per­son­nalis­er les recherch­es des chercheurs ou étu­di­ants qui peu­vent les soumet­tre au Lab.

S’inscrivant dans une stratégie de long terme, engagée depuis plusieurs années, de pro­duc­tion et d’exploitation des don­nées issues de tech­nolo­gies dévelop­pées en interne ou inté­grées par l’INA, ce site illus­tre le posi­tion­nement de l’Institut comme média pat­ri­mo­ni­al à car­ac­tère différenciant.

De fait, le site dépasse les enjeux de la stricte décou­vra­bil­ité, pour pro­pos­er une vue ana­ly­tique des ten­dances de fond qui se cachent der­rière les pro­grammes dif­fusés. Cet angle, à la fois syn­thé­tique et fondé sur des don­nées extrême­ment fines et mas­sives, n’aurait pas été envis­age­able sans le poten­tiel ouvert par les traite­ments automa­tisés per­mis par 3 tech­nolo­gies distinctes :

  • INASpeech­Seg­menter : une tech­nolo­gie dévelop­pée par l’INA qui per­met de détecter la parole, la musique, le bruit et le genre du locu­teur dans un doc­u­ment audiovisuel ;
  • Whis­per : le sys­tème de recon­nais­sance vocale d’OpenAI qui tran­scrit l’audio en texte ;
  • Tex­tRa­zor : out­il dévelop­pé par la start-up lon­doni­enne du même nom qui analyse et extrait des méta­don­nées séman­tiques à par­tir de con­tenu textuel.

De l’industrialisation de la chaîne de traite­ment automa­tique des don­nées, jusqu’aux proces­sus de con­trôle et à la fia­bil­i­sa­tion des don­nées « à l’échelle », les out­ils et les procé­dures créés pour ce site soutenu par un finance­ment France Relance (Direc­tion inter­min­istérielle du Numérique) au regard de sa dimen­sion à la fois inno­vante et socié­tale per­me­t­tent d’offrir des mod­ules génériques de datavisualisation.

Par­mi les nom­breuses offres de ce nou­veau site fig­ure le Baromètre INA­S­tat, un out­il de suivi de l’in­for­ma­tion télévisée qui clas­sait chaque sujet de JT dans 14 rubriques calquées sur celles des rédac­tions selon des vues dynamique, his­torique, sta­tis­tique ou car­tographique selon la nature des ques­tion­nements. C’est le résul­tat du tra­vail d’indexation des doc­u­men­tal­istes de l’INA qui est mis en ligne, pour la pre­mière fois, sur la péri­ode 2000 à 2020.

Ce site pro­pose par exem­ple des répons­es aux ques­tions suivantes :

  • Quelles per­son­nal­ités men­tionne-t-on le plus dans les jour­naux télévisés ? sur les chaînes d’in­for­ma­tion en con­tinu ? dans les radios ?
  • Quels pays men­tionne-t-on le plus dans les jour­naux télévisés ? sur les chaînes d’in­for­ma­tion en con­tinu ? dans les radios ?
  • Quels mots sont les plus pronon­cés dans les jour­naux télévisés ? sur les chaînes d’in­for­ma­tion en con­tinu ? dans les radios ?
  • Quelle est la répar­ti­tion du temps de parole entre les femmes et les hommes sur les chaînes de radio et de télévi­sion ? Com­ment évolue cette répar­ti­tion ? Com­ment se répar­tit le temps de parole ver­sus le temps de non parole ?

La charte de l’IA, instrument de la crédibilité du site

L’INA a choisi une stratégie inédite qui vise à béné­fici­er des grandes avancées des out­ils IA (700 000 heures analysées pour ce pro­jet), sans inter­venir sur les résul­tats mal­gré leurs imper­fec­tions. D’une part, des cor­rec­tions ajouteraient inévitable­ment d’autres biais, humains cette fois-ci. D’autre part, une telle volumétrie rend cette démarche impos­si­ble si l’on veut en assur­er l’exhaustivité, garante de l’homogénéité des résul­tats affichés. En revanche, grâce à la chaîne de con­trôle des résul­tats créée spé­ci­fique­ment pour ce pro­jet, l’INA est en capac­ité de ren­dre vis­i­bles et d’expliciter ces biais.

L’objectif de data.ina.fr reste avant tout de pro­pos­er une expéri­men­ta­tion à grande échelle de l’IA comme un ensem­ble d’outils pour faire émerg­er des ten­dances de médi­ati­sa­tion. Les chiffres présen­tés sur ce site sont donc à pren­dre comme des indi­ca­teurs de ten­dance, per­ti­nents sur le temps long. Au vu de l’évolution accélérée de ces out­ils, ce doc­u­ment est sus­cep­ti­ble d’être mis à jour.

Par­mi les prin­ci­pales inno­va­tions de ce pro­jet fig­ure incon­testable la mise en place d’une charte de l’IA. En effet, dans le cadre de cette charte, l’INA s’engage sur 6 grands principes :

1. L’é­val­u­a­tion des out­ils IA

L’INA a mis en place des proces­sus de Vérité ter­rain sur cha­cune des IA util­isées sur data.ina.fr, qui per­me­t­tent d’afficher des taux de fia­bil­ité pour cha­cune d’elles. Ces tests — réal­isés sur des échan­til­lons de médias représen­tat­ifs de l’ensemble — per­me­t­tent de com­par­er les résul­tats délivrés automa­tique­ment par les out­ils IA et ceux créés par des équipes de l’INA. Ils seront renou­velés régulière­ment pour pren­dre en compte les évo­lu­tions des out­ils IA, et plan­i­fiés par déci­sion col­lé­giale en col­lab­o­ra­tion avec le ser­vice Recherche de l’INA.

2. La traça­bil­ité des données

Une équipe con­trôle les flux de don­nées de manière exhaus­tive, de la cap­ta­tion à la mise en ligne sur le site data.ina.fr. L’INA capte en effet chaque jour et 24h/24 plus de 180 chaînes audio­vi­suelles (radio et TV) dans le cadre du dépôt légal. Ce sont ces fichiers qui sont ensuite util­isés dans la chaîne de pro­duc­tion des don­nées, pour laque­lle l’INA s’assure de la com­plé­tude des tranch­es horaires présen­tées et de leur traite­ment IA effectif.

3. Un con­trôle humain

Une équipe for­mée aux enjeux des IA util­isées sur data.ina.fr a été con­sti­tuée. Elle con­trôle la « per­ti­nence » des résul­tats sur les per­son­nal­ités, enten­due comme la bonne cor­re­spon­dance entre le nom de la per­son­nal­ité tran­scrite et détec­tée par les out­ils IA d’une part, la réal­ité de sa men­tion sur le fichi­er média orig­inel d’autre part. Ce con­trôle s’effectue sur toutes les chaînes con­cernées par les per­son­nal­ités, sur des Tops 20 mensuels.

4. Le sig­nale­ment et l’explication des biais détectés

Sur data.ina.fr, des « points d’attention » (sig­nalés par un point d’exclamation orange sur les graphiques) sont asso­ciés aux per­son­nal­ités pour lesquelles une non-cor­re­spon­dance a été iden­ti­fiée entre les résul­tats des out­ils IA et le média orig­inel via le con­trôle de per­ti­nence (voir engage­ment N°3). Les inter­nautes accè­dent ain­si à une plus grande trans­parence sur les anom­alies détec­tées grâce aux inves­ti­ga­tions des experts de l’INA et peu­vent exercer leur vig­i­lance sur l’interprétation des chiffres.

5. Une gou­ver­nance pluridisciplinaire

Sous la houlette de la direc­tion édi­to­ri­ale, dif­férents corps de métiers (tech­ni­ciens de la ges­tion des don­nées, doc­u­men­tal­istes, data sci­en­tists, data ana­lystes, data jour­nal­istes…) sont engagés sur le pro­jet pour en fix­er les règles. Cette col­lé­gial­ité est essen­tielle car l’utilisation des out­ils IA sur une matière aus­si com­plexe que la pro­duc­tion audio­vi­suelle des médias français soulève des enjeux à la fois édi­to­ri­aux, tech­nologiques, juridiques… au cœur de l’expertise méti­er de l’INA sur la ges­tion et l’analyse des médias audiovisuels.

6. L’acculturation du grand pub­lic aux don­nées IA

Sur data.ina.fr, chaque graphique est accom­pa­g­né d’éléments explic­i­tant le mode de pro­duc­tion et de visu­al­i­sa­tion des don­nées à tra­vers des espaces méthodologiques et des infor­ma­tions sig­nalant à l’internaute que les don­nées provi­en­nent d’une IA. Une sig­nalé­tique et un vocab­u­laire grand pub­lic ont été adop­tés afin de ren­dre compte des « points d’attention » pub­liés. Dans le souci de don­ner à voir et à com­pren­dre la pro­duc­tion des résul­tats IA présen­tés sur data.ina.fr, les pages de méthodolo­gies sont enrichies d’une série d’infographies sur le fonc­tion­nement des IA mobilisées.

Cette ini­tia­tive de l’INA artic­ulée sur un usage « intel­li­gent », lucide et péd­a­gogique des poten­tial­ités d’analyse doc­u­men­taire de l’IA mérite d’être saluée comme la mar­que la plus tan­gi­ble de l’intérêt de cette tech­nolo­gie dans l’analyse a pos­te­ri­ori de l’information.

Ses limites actuelles et les opportunités à saisir à l’avenir

Sans que cela puisse lui être reproché à ce stade de développe­ment, et même si l’I­NA a égale­ment en charge le dépôt légal du web français, soit la col­lecte con­tin­ue de 16 069 sites web et 15 637 comptes de réseaux soci­aux ou de plate­formes de dif­fu­sion en ligne depuis 2009, ces con­tenus posent des ques­tions méthodologiques spé­ci­fiques (en par­ti­c­uli­er d’homogénéité des périmètres et des représen­ta­tions), il n’a pas été choisi de les inté­gr­er pour cette phase de lance­ment de data.ina.fr afin de se con­cen­tr­er sur les traite­ments IA des con­tenus télévi­suels et radiophoniques.

Il va sans dire que ces élé­ments seront inté­grés à l’avenir lorsque des répons­es robustes auront été apportées à ces ques­tions méthodologiques.

D’autres développe­ments de cet out­il nova­teur sont en cours.

Tourné aujourd’hui unique­ment vers l’analyse doc­u­men­taire dif­féren­ciante d’un exis­tant infor­ma­tion­nel artic­ulé unique­ment sur une pro­duc­tion et une dif­fu­sion d’origines humaines, il serait cer­taine­ment des plus oppor­tuns d’élargir le spec­tre d’analyse de cet instru­ment vers la pro­duc­tion et la dif­fu­sion de l’information par recours à l’IA généra­tive, et plus glob­ale­ment aux tech­nolo­gies totales[v], ne serait-ce que c’est au tra­vers de leur déploiement que les Bigtechs entrent de plein pied dans les jeux et enjeux géopoli­tiques en s’employant à s’opposer par la maîtrise des proces­sus infor­ma­tion­nels du futur au retour des États dans la gou­ver­nance mondiale.

L’INA ayant coor­don­né et piloté le rap­port de prospec­tive sur le monde de l’information en 2050 pour le compte des États généraux de l’information, cet insti­tut pour­rait se voir appelé à entre­pren­dre le moment venu l’intégration dans son site data.ina.fr d’autres types d’analyses exploratoires pour cha­cune des cinq grandes trans­for­ma­tions qui façon­neront le monde de l’information d’ici à 2050 sur la base des trois sce­narii retenus lors de cette exer­ci­ce[vi], ce qu’aucun autre organ­isme pub­lic n’a aujourd’hui mis­sion d’entreprendre.

Voir aus­si : Coups de pro­jecteur sur la resti­tu­tion offi­cielle des États généraux de l’information 2024. Con­clu­sion générale

Notes

Voir aussi

Vidéos à la une

Derniers portraits ajoutés