Comment sont créées les données ?
Projet associé
4M CaucaseLa nécessaire (et parfois fatale) première question à poser.
Contexte :
netgazeti.ge est un site d'information basé à Tbilisi, en Georgie. Depuis près de deux ans, grâce à CFI, je travaille avec eux sur leur modèle économique, le switch de leur CMS et sur les "nouveaux" formats que sont les lonforms et la data.
Ce billet est un retour d'expérience sur un projet de journalisme de données qui reste dans les cartons… pour le moment.
La récupération de données est la première étape en journalisme de données, mais plus que l'obtention des chiffres, c'est la capacité à les critiquer qui permet de les utiliser correctement.
La Georgie, terre promise du datajournalism
La Géorgie est un pays plein de ressources, et l'une d'entre elles est la présence de nombreux jeux de données. Ils sont pour certains mis en place directement par le gouvernement, comme declaration.gov.ge, d'autres sont l'émanation d'associations / fondations étrangères qui pensent que la publication en ligne de données est l'une des voie pour accélérer l'ouverture du pays à plus de transparence – cf le Caucasus barometer.
Depuis cinq années maintenant, les politiques élus sont obligés de publier leur patrimoine.
Chers collègues français, oui : "allô nan mais allô quoi, t'es un élu français et tu publies pas ton patrimoine ?".
Si dans un premier temps les documents étaient des scans de formulaire remplis à la main, et donc pour certains difficilement lisibles,
depuis deux ans les formulaires sont de bien utiles PDF remplis via ordinateur.
Via l'aide d'
Ettore Rizza, journaliste indépendant spécialisé (notamment) en extraction de données, la liste des plus de 5 400 déclarations 2015 a été récupérée.
La rédaction de netgazeti comme celles d'autres médias utilise régulièrement cette base de données pour y trouver des informations sur le nombre de voitures, le patrimoine immobilier ou l'argent en cash des politiques de leur pays.
Face à un tel volume d'informations (relativement) proprement rangées, nos coeurs d'aspirants journalistes de données ne pouvaient que s'interroger sur la création d'une base plus facilement exploitable. Avec la possibilité pour le lecteur d'interroger, par exemple : « Qui sont les politiques avec plus de 50 000 dollars en cash ? » ; « Combien d'appartements ont en moyenne les juges ? » ou encore « Dans quelles villes sont situées leurs propriétés ? ».
Pour cela, il faut passer par une étape d'analyse du PDF. Elle permet:
. de repérer la structure des PDF
. ce qui permet d'imaginer la structure de la base de données,
. et, en comparant quelques PDF tests, de tenter de comprendre comment ils sont remplis par les politiques.
Et c'est là que nous avons découvert l'un des pires problèmes en data : la non-persistance des données et son corollaire : l'impossibilité d'en extraire un schéma type.
La non-persistance des données
Pour qu'une base de données autorise les comparaisons entre différentes entités (des politiques ici), il est important que les informations rattachées aux entités aient les mêmes caractéristiques.
Qu'avons-nous constaté en passant du temps sur ces PDF ?
Il n'y a aucune indication sur la période à laquelle ils se rapportent. Est-ce qu'un PDF mis en ligne en décembre 2015 contient les informations de 2015 ou bien se rapporte-t-il à l'année précédente, soit 2014, qui est la seule année close. A l'instar des impôts ou des bilans d'entreprise, est-on sur un rythme année n-1 ?
Nous avons lu la loi : elle ne parle que de l'obligation d'une déclaration annuelle, mais n'en détaille pas les règles de remplissage.
Et ce malgré une riche infographie publiée sur le site, mais dont la première phrase ne parait pas franchement correspondre à la réalité.
Second type non persistant de données : les informations sur les comptes en banque. Les politiques doivent indiquer tous leurs comptes en banque : nom de la banque, montant, devise, crédit, débit, etc.
Problème : certaines déclarations ne sont pas claires sur les caractéristiques de ces comptes, avec notamment une subtilité sur la notion de compte courant, compte à crédit ou compte épargne.
Face à ces questions, nous avons appelé une banque et un cabinet d'avocats spécialisés sur ces questions : les réponses sont restées bien évasives.
Nous avons contacté l'équipe qui gère le site des déclarations : ils ne savent pas quelles sont les différences entre ces différentes mentions.
Nous avons discuté avec un politique qui a rempli ce document : elle n'a pas été capable de nous expliquer dans la mesure où elle n'est pas concernée par ces différents comptes et qu'ils n'ont aucune instruction sur ce qu'ils doivent mettre. Cela reste du déclaratif, ne l'oublions pas.
Difficile d'établir une structure correcte pour la base de données
La non-persistance des données est accompagnée de son collègue l'impossibilité d'établir une structure pertinente pour la base de données. Or sans structure, pas de base. Il ne s'agit pas de créer des colonnes dans tous les sens pour les remplir de données que l'on ne comprend pas : cela pourrait amener une multitude d'erreurs dans les interprétations futures.
La structure est essentielle : c'est grâce à elle que nous pouvons éditorialiser les données. Un projet de datajournalism doit répondre à des objectifs : pointer une problématique, donner des arguments pour de futures interviews, permettre de trouver des histoires. Tout cela n'est possible que si la base de données est interrogeable de façon à répondre à ces questions-là.
Enfin, dernier souci : avec trois devises différentes, comment établir une comparaison entre les patrimoines ? Nous avons trouvé une solution (qui est discutable) : on se base sur le taux de change moyen de l'année auquel se rapportent les données. D'où l'importance de connaitre la période à laquelle se rapporte une déclaration.
Nous voici donc pour le moment coincé devant une potentielle mine de données, mais nous n'avons pas encore trouvé un processus satisfaisant pour l'exploiter sereinement. Si vous avez des idées pour nous aider à la mettre en place, n'hésitez pas à commenter !