Le Grand Débat ou le syndrome du réverbère

EDIT du 24/2/2019: précisions sur le processus mis en oeuvre par Qwam et ajout des initiatives de myriadisation.

Je suis depuis un moment à l’affut des informations sur le Grand Débat. Qu’il s’agisse du site internet ou des contributions fournies par tous les rapporteurs de grands débats locaux, médiatisés ou non, tout cela forme un énorme ensemble de textes (un « corpus », comme disent les linguistes), qu’il va falloir analyser en un temps record. En effet, le Grand Débat sera clos le 15 Mars 2019, pour une restitution en Avril. Il n’est pas concevable que l’analyse exhaustive soit faite par des humains, il faudra donc analyser automatiquement tous ces textes. Avec des outils de traitement du langage, donc.

Un aussi vaste corpus (250.000 documents) est forcément objet de fascination pour qui s’intéresse à la langue. Sur le fond, évidemment (et là, l’intérêt est partagé par les politiques) : de quoi parlent les français, dans ce débat initialement cadré mais finalement peu limité ? Se sont-ils docilement fondus dans le cadre proposé ou ont-ils abordé des sujets totalement différents (ou encore les sujets proposés mais sous des angles alternatifs) ? Mais également sur la forme : comment les opinions sont-elles exprimées ? Quels sont les arguments utilisés ? Quels mots, quelles tournures, quels cheminements de pensée ? Y trouvera-t-on des « fake news » ? Si oui, pour les réfuter ou au contraire pour s’en servir ? La pression de l’actualité, le stress de l’époque influence-t-il les communications ou au contraire trouve-t-on de la mesure et de la prise de distance par rapport aux enjeux ?

A n’en pas douter, nombre de chercheurs en sciences du langage répondront « présent » à l’Appel à Manifestation d’Interêt proposé par le Ministère de la recherche pour travailler sur ce matériau unique. Et nous aurons certainement d’ici quelques mois des publications scientifiques de grande valeur sur ce sujet. Mais pour ce qui est de son exploitation directe, dans le temps court qui est celui du politique, il faudra aller vite et se passer des chercheurs. Le Monde du 21 Février levait le voile sur la manière dont seront analysés les résultats. L’article intitulé « Contributions au « grand débat » : comment analyser 68 millions de mots en deux semaines ? » (question à laquelle je réponds sans hésitation : « mal »), précisait le dispositif : c’est l’institut OpinionWay qui va effectuer l’analyse, le traitement initial des données étant confié à Qwam, société spécialisée dans la veille sur le Web et l’analyse sémantique et qui a remporté plusieurs projets d’innovation en R&D sur l’analyse du texte.

Qu’on me comprenne bien : il n’est pas ici question de remettre en cause la prestation de Qwam, que je connais, que je respecte et que j’aime bien. Je suis certain qu’ils arriveront à faire ce qu’on leur a demandé et à traiter cette masse de données en deux semaines, ce qui relève clairement du défi. C’est plutôt la démarche qui me gêne. Sur deux axes au moins.

La variété d’expression

D’un point de vue technique, le système va rechercher les occurrences de thèmes sélectionnés par OpinionWay (voir ci-dessous le processus). Il est vraisemblable que le thème « suppression de l’ISF » sera l’un des thèmes à quantifier. Sans connaître le détail de la méthode utilisée, il y a fort à parier que les phrases « je suis pour la suppression de l’ISF », « je ne suis pas pour la suppression de l’ISF », « à ceux qui diraient qu’ils sont pour la suppression de l’ISF, je rétorquerai ceci », etc. toutes ces variations vont tomber dans la case « suppression de l’ISF », sans distinction, simplement parce qu’elles mentionnent les mots cherchés. On peut faire l’exercice similaire avec le terme « rétablissement de l’ISF ».

Tout professionnel de l’étude des verbatim rétorquera (avec raison !) que les phrases simples constituent plus de 80% des occurrences, que les doubles négations, l’ironie, les citations, etc. ne sont que des phénomènes rares dans de l’expression spontanée et que, de toutes façons, l’état de l’art en traitement automatique des langues ne permet pas d’identifier correctement les 20% restants. Donc autant les ignorer, surtout si on n’a que deux semaines pour faire le traitement. Tout cela est vrai mais d’une part, c’est dommage, d’autre part, cela mérite d’être validé sur ce corpus-ci précisément. D’autant que le corpus a la particularité que la répartition des textes ne respecte pas la répartition des contributeurs. Il y a en effet des compte-rendus de réunions (donc un unique texte) qui valent pour une réunion de dix, peut-être cent personnes. Si le secrétaire de la réunion est un fanatique de la double négation, la mauvaise interprétation par la machine de sa coquetterie d’écriture va entraîner avec elle l’ensemble des participants au débat.

Tout cela est regrettable, mais encore une fois, la technologie n’est pas à blâmer, elle fait ce qui est possible étant donné le temps imparti et l’état de l’art en termes d’analyse de textes. L’étude scientifique des textes nous fournira certainement les ajustements nécessaires. Il reste juste à craindre que, au-delà du constat (juste) du fait que X% des verbatim mentionnent la suppression de l’ISF, l’information ne devienne, sous la plume d’un journaliste « Grand Débat: X% des français sont pour la suppression de l’ISF » (je laisse le X à la liberté du lecteur).

Le syndrome du réverbère

L’autre point qui me gêne s’éloigne de la technique et concerne la démarche. Il relève de ce qu’un ami, professionnel des études, ancien de CSA et fondateur de start-up sur l’analyse d’opinion appelait le « syndrome du réverbère ». L’expression vient de l’histoire (bien connue) de l’homme qui cherche sous le réverbère les lunettes qu’il a perdues, non pas parce que c’est là qu’il pense les avoir perdues mais parce que c’est là qu’il y a de la lumière. Et comme il n’a pas de lunettes…

OpinionWay va se baser sur une première extraction de termes réalisée automatiquement par Qwam à partir de l’intégralité du corpus. Cette première analyse est similaire à ce que présente ici Vincent Claveau, chercheur en Traitement automatique des langues. Le processus automatique va même proposer une première structuration. C’est une avancée par rapport à la méthode traditionnelle des cabinets d’analyse d’opinion qui consiste à faire lire aux analystes une infime partie des documents (comment faire plus dans le temps/le budget imparti ?), procéder à ce que la profession appelle une « mise à plat » des thèmes rencontrés et les organiser en « grille d’analyse ». Ici, les thèmes seront extraits par l’analyse automatique (avec les faiblesses qu’a toute analyse automatique) et OpinionWay va retravailler l’arborescence pour arriver à une représentation proche de ce qui suit (j’invente, mais je pense être proche de la réalité, pour avoir fait l’exercice plusieurs fois avec des professionnels des études d’opinion):

fiscalité
+- taxe carbone
+- ...
+- ISF
+- suppression de l'ISF
+- rétablissement de l'ISF

A chaque noeud de l’arbre vont correspondre une ou plusieurs expressions que l’on demandera au système de retrouver dans les textes (avec les approximations décrites précédemment). On pourra ainsi quantifier la part des thèmes dans le corpus et les rapporter au nombre de personnes s’exprimant.

Là où intervient le syndrome du réverbère, c’est que si quelques publications, en nombre statistiquement pertinent, parlent d’un sujet non prévu dans la grille, il passera totalement inaperçu. Il peut avoir été négligé par l’analyse, mal qualifié par la machine, ou simplement pas retenu pour des raisons de clarté du rendu, les raisons sont multiples Ces sujets non prévus sont ce que les spécialistes appellent les « signaux faibles », ceux que l’on guette pour essayer de prédire quelles seront les thèmes majeurs de demain. Par exemple, si 5% des documents réclament le retour de la taille et de la gabelle (sait-on jamais), c’est un signal significatif mais qui se trouvera hors de la lumière du réverbère. Il ne sera donc pas compté.

En conclusion

Il existe de nombreuses approches pour aider la machine à analyser de grands volumes de données. On peut par exemple faire appel à la foule. C’est le crowdsourcing, ou myriadisation, comme on dit en français, comme le propose le site Grande Annotation. Il s’agit de faire lire par des humains les contribution, leur faire catégoriser les idées présentes. De façon similaire aux notations de restaurant sur le net, on compte sur le fait que la multitude des acteurs masquera les singularités (partisanes ou simplement erronées suite à une lecture trop rapide) et que la connaissance humaine, émergera de la masse. Après avoir fait analyser manuellement une partie du corpus, on dispose d’une base d’annotations qui peut permettre ensuite d’ajuster les systèmes d’analyse automatique du texte, par exemple en utilisant des techniques d’apprentissage, mais également, tout simplement en corrigeant les systèmes à la main.

Une telle analyse demande de collecter l’information, d’ajuster les méthodes, puis de remettre les termes en contexte, de les hiérarchiser, les organiser afin de pouvoir extraire du sens. Tout cela ne tiendra pas en deux semaines. Le temps politique n’est pas celui de l’analyse.

Publicité

Un commentaire sur “Le Grand Débat ou le syndrome du réverbère

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s