Data Lineage
Data Lineage : retracer le parcours d une donnée, de sa source à son usage final, en passant par toutes ses transformations. Confiance et conformité.
Data Lineage
Le data lineage est la traçabilité du parcours d'une donnée, depuis sa source jusqu'à son usage final, en documentant chaque transformation qu'elle subit.
En clair
Le data lineage, ou traçabilité des données, décrit le parcours complet d'une donnée : d'où elle vient, par quelles transformations elle passe, et où elle aboutit. C'est l'équivalent d'une carte qui relie chaque tableau de bord, chaque indicateur, à ses sources d'origine en passant par toutes les étapes intermédiaires. Il répond à une question simple mais cruciale : ce chiffre que je vois, comment a-t-il été produit ?
À quoi ça sert
Il sert la confiance, le diagnostic et la conformité. Quand un indicateur paraît faux, le lineage permet de remonter la chaîne pour trouver l'étape fautive, au lieu de chercher à l'aveugle. Il facilite l'analyse d'impact : avant de modifier une source, on sait quels rapports en dépendent. Il répond aussi aux exigences réglementaires, en prouvant la provenance et le traitement des données, notamment lorsque celles-ci sont sensibles ou personnelles.
En mission / dans la pratique
En mission, vous mettez en place la capture du lineage, idéalement de façon automatique à partir des transformations exécutées, plutôt que par une documentation manuelle vite obsolète. Vous l'exploitez au quotidien pour les analyses d'impact et le diagnostic d'incidents. Lorsqu'un client veut modifier ou supprimer une source, c'est le lineage qui révèle l'effet en cascade sur les rapports et les modèles en aval, et évite de casser silencieusement des usages critiques.
Pièges & bonnes pratiques
Piège classique : documenter le lineage à la main, ce qui devient faux dès la première évolution non reportée. Bonne pratique : privilégier une capture automatisée, déduite des transformations réelles. Attention aussi à la granularité : un lineage trop grossier n'aide pas au diagnostic, trop fin devient illisible. Visez le niveau utile aux usages réels. Enfin, un lineage n'a de valeur que s'il est consulté : intégrez-le aux réflexes des équipes.
À ne pas confondre
Le data lineage n'est pas un data catalog, même s'ils sont complémentaires : le catalogue répertorie les données, le lineage en retrace le parcours. Il est un pilier de la gouvernance des données et s'enrichit naturellement des outils de transformation comme dbt, qui exposent les dépendances entre modèles.
ForTeam IT à vos côtés
Vous recherchez une mission ou un consultant expert sur ce sujet ? ForTeam IT met en relation des consultants IT freelance sélectionnés avec des grands comptes, ETI et scale-ups partout en France. Consultez aussi notre grille des TJM freelance IT et nos expertises par technologie.
À lire aussi
Vous êtes consultant IT freelance ?
Rejoignez ForTeam IT et accédez à des missions sélectionnées chez nos clients grands comptes.
Rejoindre la communauté