Les équipes data passent le plus clair de leur temps à préparer les données. J’ai vu passer une étude qui montre que les Data Scientists consacrent en moyenne 80% de leur temps à préparer / nettoyer les données. C’est une aberration quand on sait qu’il existe des outils de dataprep qui permettent de faire d’énormes gains de productivité.
Il y a plusieurs manières de faire de la dataprep, du SQL custom aux outils no code en passant par les outils spécialisés et les outils de BI intégrant des fonctionnalités de dataprep.
Il n’est pas facile de faire son choix.
Avant de choisir une solution, il est important de prendre le temps de comprendre le marché, le positionnement des différentes solutions, les différences en matière de périmètre fonctionnel, etc.
C’est l’objectif de cet article.
Panorama des différents types d’outils de Data Preparation
Voici un panorama des différentes familles d’outils qui peuvent aider dans la préparation des données.
Les fonctionnalités proposées par les outils de dataprep
Pour choisir le bon outil, il faut avoir une bonne compréhension des fonctionnalités proposées par les outils de dataprep. Il y a 4 fonctionnalités clés des outils de data preparation.
#1 Accès aux données et exploration à partir de n’importe quel set de données
L’accès aux données désigne la capacité de votre outil de dataprep à accéder à l’ensemble des sources de données que constitue votre système d’information. Quelles sont les sources que vous pouvez connecter à l’outil de dataprep ? Quels sont les formats de données gérés ? Quid de l’API ? Quid des connecteurs proposés par l’éditeur ? Ce sont autant de questions à vous poser lors de votre analyse des outils du marché.
Il faut que vous choisissiez un outil dans lequel vous pouvez intégrer facilement les données en provenance de vos différentes sources, sans limitations et indépendamment de l’endroit où sont stockées ces données. Vous avez des fichiers Excel, des fichiers CSV, des documents Word, un entrepôt de données SQL, des applications cloud, des systèmes opérationnels (CRM, marketing automation, ERP) ? Assurez-vous de pouvoir les importer dans l’outil de dataprep.
L’étape suivante consiste à explorer les données collectées pour mieux comprendre ce qu’elles contiennent et ce qu’il va falloir faire pour préparer les données en vue des cas d’usage cibles. Les données sont « profilées » : identification des patterns, de la distribution des données, des relations entre les variables et les attributs, des anomalies, des valeurs aberrantes ou manquantes, etc. L’outil de data prep doit permettre un travail exploratoire sur chaque data set.
#2 Nettoyage des données
Les outils de dataprep proposent ensuite des fonctionnalités pour nettoyer les données (data cleansing). Le nettoyage des données est indispensable pour disposer de data sets fiables, valides et exploitables.
Le nettoyage des données regroupe un certain nombre d’opérations : la suppression des valeurs aberrantes, la vérification de l’orthographe, la correction des erreurs de saisie, la standardisation des cases, l’identification et le marquage des cellules vides, la normalisation des formats (les dates, par exemple), l’élimination des données manquantes, la suppression ou la fusion des données dupliquées, le masquage des informations sensibles ou confidentielles…
#3 Enrichissement des données
L’enrichissement des données est la troisième fonctionnalité clé des outils de dataprep. Enrichir les données consiste à améliorer le taux de complétude de la base de données (les cellules vides) et/ou à ajouter de nouveaux champs. L’enrichissement des données permet ensuite de mieux segmenter et personnaliser les campagnes/scénarios marketing ou les actions commerciales. Si l’enrichissement des données est si important, c’est que la personnalisation et le ciblage sont des clés de performance en marketing-ventes. Plus vous avez d’informations sur vos clients ou contacts, mieux c’est !
L’enrichissement de données peut s’effectuer de deux manières complémentaires :
- A partir de sources de données internes.
- A partir de sources de données externes : fournisseurs de données spécialisés, bases de données publiques, LinkedIn…
L’enrichissement des données améliore la valeur et le potentiel d’activation de vos données.
#4 Export des données
Les données, une fois préparées, doivent être exportées dans les outils de destinatation : outils d’activation, outils d’analyse, entrepôt de données, CDP…Les capacités d’export des données sont un facteur discriminant dans le choix d’un outil de data preparation.
Gardez le contrôle de vos données clients
Le contrôle des données devient un enjeu clé pour les entreprises. Découvrez pourquoi vous ne devez pas stocker vos données dans vos logiciels (CRM, Marketing Automation, ERP…), mais dans une base de données indépendante.
Les principaux critères différenciants
Voici quelques critères à prendre en compte dans le choix de votre outil de dataprep :
- Le niveau de technicité requis. Il existe des outils no code qui permettent de procéder aux opérations de dataprep sans savoir programmer. A l’inverse, certains outils sont destinés aux utilisateurs maîtrisant parfaitement le code (le langage SQL notamment). Entre les deux, on trouve toute une série d’outils nécessitant quelques connaissances en code. Ce sont outils « low code », dont l’utilisation nécessite une bonne collaboration entre les équipes IT et métier.
- La vitesse de traitement. On distingue classiquement les outils qui redistribuent les données préparées en temps réel (real time) et ceux qui redistribuent les données préparées toutes les X minutes/heures (batch processing). Dans certains secteurs, le temps réel est un réel besoin. Dans beaucoup d’autres, le batch processing est suffisant.
- Le nombre de recettes packagées. Une recette est un ensemble de traitements séquencés réalisés sur un set de données. Les outils de dataprep proposent des recettes packagées qui permettent de gagner du temps.
- Le prix. Certains outils de dataprep « self service » proposent des offres gratuites qui, si vos cas d’usage sont basiques, peuvent faire l’affaire. Les outils de dataprep les plus évolués peuvent coûter jusqu’à 100 000 euros par an.
Les meilleurs outils de data preparation
Les outils de dataprep self service, testables rapidement
Les outils de dataprep self service sont des solutions légères, faciles à prendre en main et conçues pour les équipes métier/business. Il n’y a pas besoin d’être technophile pour les utiliser. Ces outils ont aussi l’avantage de proposer des tarifs très abordables.
Les outils de dataprep pour les grandes entreprises
Les grandes entreprises ont souvent des besoins avancés en dataprep, étant donné la quantité de données à gérer, leur diversité et la complexité des écosystèmes data. Certaines solutions de dataprep sont conçues pour les grandes entreprises. Elles proposent des fonctionnalités de dataprep avancées et ont souvent un périmètre fonctionnel qui déborde la préparation des données. Ce sont, sans surprise, des solutions très coûteuses.
Les outils de dataprep spécialisés sur un sujet spécifique
Si vos besoins de dataprep se limitent à vouloir nettoyer et normaliser des adresses emails, il n’est pas sûr que vous ayez (tout de suite) besoin d’investir dans une solution de dataprep avancée. Il existe sur le marché de bonnes solutions spécialisées dans la préparation de données spécifiques : les adresses emails, les adresses postales, les données Salesforce.
Les outils de dataprep intégrés dans un outil de Business Intelligence (BI)
Les solutions de Business Intelligence leaders du marché proposent toutes des fonctions de dataprep. C’est le cas, notamment, de Power BI, de Tableau ou de Dataiku. Si vous envisagez d’investir dans un outil de BI, vous pourrez l’utiliser pour préparer vos données.
Les outils de Data Ops
Les outils de Data Ops sont des solutions sur l’étagère tout-en-un pour gérer les données de l’entreprise au service du business. Un outil de Data Ops permet, depuis une interface simple, de connecter l’ensemble des sources de données, de transformer les données et de les redistribuer sous forme d’agrégats aux outils d’activation et aux outils de BI. La transformation inclut le nettoyage des données, leur normalisation, leur consolidation, leur enrichissement et la création d’agrégats/d’audience à des fins d’activation ou d’analyse. Les outils de Data Ops s’intègrent dans une architecture IT de type stack data moderne.