« Pure data » : tout commence à la source

« Pure data » : tout commence à la source

22 jun 2020

Vous l’avez sans doute entendu dire : les données sont le « nouvel or ». C’est peut-être vrai, mais à condition de les récolter comme il faut. Nous nous sommes demandé pourquoi il faut aller chercher des données propres (clean data) à la source, et comment elles peuvent aider le comptable à tenir sa promesse : devenir un vrai partenaire de l’entrepreneur.

De nos jours, le comptable adopte tous les outils numériques capables de lui fournir les informations qui lui sont utiles. Loin de se focaliser exclusivement sur les aspects purement comptables, il se profile aussi comme le conseiller de son client. Il l’aide à prendre des décisions fondées et à bien planifier ses liquidités à partir d’informations financières exactes et à jour. Les données inexactes, non structurées ou incomplètes conduisent en effet inévitablement à de mauvaises conclusions, avec toutes leurs conséquences. Et à mesure que la complexité augmente, les défis grandissent, de même que les risques pesant sur la qualité des données.

Données propres

Parallèlement à la quantité de données, c’est surtout leur qualité qui doit intéresser les organisations. Les grandes entreprises investissent activement dans leurs data scientists. Dans les plus petites, le classement (chronologique), le filtrage et la correction des données sont des tâches qui font partie du package du comptable (externe). Si vous voulez notre avis, il est possible de faire autrement, et mieux. Celui qui recueille dès le départ les clean data dont il a besoin fait tout de suite un grand pas dans le sens de la rationalisation du travail. Cela fait gagner du temps, des efforts et évite bien des frustrations (nous connaissons tous le stress trimestriel).

Quand les données sont déjà au point à la source, tout est plus facile. Or, dans la réalité, les problèmes sont encore nombreux à cet égard. Les factures nous parviennent par un embrouillamini de canaux comme l’e-mail, les portails des fournisseurs et la poste traditionnelle. Trop souvent encore, les extraits bancaires sont délivrés sur papier ou en PDF. La durée du traitement s’en ressent, de même que le pourcentage d’erreur. Vous en doutez ? Enregistrez donc le temps que vous passez à rectifier les factures incomplètes ou imprécises. Il y a là matière à réfléchir, vous verrez.

Factures numériques

Les données de qualité se distinguent par une caractéristique importante, l’uniformité. La facturation numérique apporte une réponse via le réseau sécurisé européen Peppol. Grâce à ce dispositif, vous pouvez envoyer des factures au format UBL suivant un protocole déterminé. Toutes les factures expédiées et reçues répondent automatiquement à un ensemble de conditions de forme. Cela vous évite de courir après les informations manquantes ou douteuses. Notre service CodaBox, en tant que point d’accès certifié, fait appel au réseau Peppol pour la facturation électronique.

OCR et data scraping : les limitations

Pour la récolte de données numériques, on a souvent recours à l’OCR et au data scraping (capture de données).

L’OCR, ou Optical Character Recognition, reconnaît rapidement les données pertinentes sur les documents papier et les convertit en un format numérique exploitable. Après le scannage, le logiciel OCR « voit » certaines combinaisons de caractères et détermine s’il s’agit d’un champ spécifique, comme un montant total ou un numéro de TVA.

Quant au data scraping, la technique consiste à envoyer des scripts dans les boîtes aux lettres, les plates-formes et les sites Internet, à la recherche de factures et de preuves de paiement. Le procédé permet d’extraire des données, de les analyser puis de les structurer dans une base de données interne.

Malgré les technologies intelligentes que cachent ces méthodes, toutes deux connaissent des limitations. L’OCR extrait automatiquement des données des factures numériques, par exemple la date de la facture ou le montant. Le problème, c’est que certaines données ne sont pas toujours lues correctement, voire sont mal interprétées. L’OCR et le data scraping nécessitent une vérification manuelle, au détriment de la facilité d’utilisation que l’on recherche. Les deux technologies n’atteignent pas tout-à-fait leurs objectifs en matière de gestion des données.

Et les données gratuites ?

Vous songez à récolter vous-même des données ou à les obtenir via un partenaire ? C’est possible. Mais si la perspective est un peu trop belle pour être vraie, en fin de parcours, il y a toujours quelqu’un pour payer la note : le comptable ou l’entrepreneur. De plus, vous vous exposez (ainsi que vos clients) à des informations fausses, des fuites de données ou des cyberattaques. En contrepartie de l’avantage financier relatif des données gratuites, votre entreprise peut subir un préjudice considérable et voir sa réputation irrémédiablement ternie. Demandez-vous toujours si vous pouvez vraiment faire confiance à votre partenaire.

Rapidité et tableau complet

L’exactitude des données est essentielle. Mais la rapidité est une autre condition importante lorsqu’il s’agit de vous appuyer sur des données. Idéalement, les tableaux de bord de votre logiciel comptable sont alimentés par les données les plus récentes, concernant notamment les paiements, les recettes et la trésorerie. La réception rapide des documents est primordiale à cet égard. Le principe de la propreté des données intervient dans une multiplicité de flux d’informations, des extraits bancaires aux données salariales en passant par la facturation. Il faut disposer d’une vue panoramique pour détecter à temps les opportunités et les pièges.

La qualité des données accroît la maniabilité, la compétitivité et l’efficacité de l’organisation. L’hygiène des données commence à la source. En collectant l’information de la manière qui vous convient le mieux, vous disposerez de données correctes et propres. Vous éviterez aussi par la suite les fastidieuses opérations de nettoyage.

Marie Costers
Managing Director