Pourquoi et comment mettre en place un Data Catalog ? 🤔 Ravi d'avoir pu en parler sur Datagen au micro de Robin Conquet. Au menu : 💡 Qu’est-ce qu’un Data Catalog et dans quel contexte c’est nécessaire ? 🔥 L’importance du sponsorship et la bonne méthode : par use case et par itération 🚀 Les 6 phases clés : collecter ses métadonnées, compléter le glossaire… 👍 Le marché du Data Catalog et les différentes solutions. Les liens vers l'épisode sont en commentaire ! 👇 Merci encore Robin pour cette opportunité d'échanger sur ce sujet passionnant !
Bravo à vous Mandatory "le data catalog" , je dirais même que c'est la colonne vertébrale d'une data AGILE (IT , SELF BI) 😁 Que ce soit en mode SAAS (genre MS Fabric) ou systèmes hébergeurs hétérogènes (genre Bigquery , Power Bi ) voir une incursion en terres E.L (Airbyte) & T (DBT) , tout le monde attend impatiemment ce service : -Les développeurs de pipelines - Développeurs de modes sémantiques ( star modes , KPIs , RLS) - Consommateurs (data citizens) de modèles dimensionnels --- à minima : Service : Inventaire du patrimoine data , description de modèles , formules des kpis , lineage & dépendances --- des souhaits : Quitte à scanner les métadata une ouverture vers les conseils de best-practices en modélisation ( with AI help) - en gros détecter les problèmes Est ce aussi à ces outils qu'il fait demander un audit centralisé de tous les accès & partages ( ne pas oublier le reverse ) ?
Offrir un documentation exhaustive de nos chaines data sera le minimum attendu de la part des editeurs La ou ils vont se démarquer je pense , c'est sur les services "premium" C'est à dire sortir avec l'aide de L'IA et des règles de best practices les éventuelles anomalies de nos modèles dimensionnels ( coté DWH lake-houses SQL , coté Tableau & Power BI) Typiquement -la détection de doublons potentiels (KPIs & modèles sémantiques) ==> 70% des codes sont en identiques ? sommes nous sur des doublons ? - Trop peu de data products sont détectés coté semantic models power bi -, mes modèles SQL & power BI possèdent des anomalies de modélisation -Est ce que mon power query (PBI) est adapté à une connection Bigquery ? C.à. d - Sommes nous sur un problème de Serverless cost ? ETC ... Tant qu'a lire les metadata , alors les analyser
Merci à toi Sebastien d’être venu nous faire une masterclass Data Catalog sur le podcast ! 🤩
Building the future of data governance @ DataGalaxy | Co Founder & CEO
9 moisApple Podcasts : https://rb.gy/6e05uk YouTube : https://rb.gy/f7ryc1 Spotify : https://rb.gy/onjcgb Deezer : https://rb.gy/6e05uk Le site DataGalaxy : https://bit.ly/3SVvFUU