Microsoft Azure Data Factory
Vous disposez d’une volumétrie importante de données brutes ? vous trouvez des difficultés à les exploiter et à les rendre significatives ?
Microsoft vous propose un service pouvant orchestrer et exécuter des processus permettant d’affiner ces données brutes pour les transformer à des informations exploitables. Il s’agit du service Azure Data Factory (appelé : Fabrique de données).
C’est quoi ADF ?
Azure Data Factory (ADF) est un service cloud créé pour des projets complexes d’extraction, de transformation et de chargement (ETL), d’extraction, de chargement et de transformation (ELT) et d’intégration des données.
Cas d’usage :
• Reprise de données de l’entreprise, remplacer un flux SSIS
• Agrégation d’une grande volumétrie de données dans le cas de projets liés à la Business Intelligence et Machine Learning.
• CI/ CD grâce à l’interaction avec GIT (contrôle de versions) et Azure DevOps
Composants d’ADF :
Azure Data Factory est constitué de quatre (4) composants principaux :
1- Pipeline : une fabrique de données peut avoir un ou plusieurs pipelines. Un pipeline est un groupement logique d’activités. Ensemble, les activités d’un pipeline effectuent une tâche.
2- Activité : un pipeline peut contenir une ou plusieurs activités. Les activités définissent les actions à effectuer sur les données.
Par exemple, vous pouvez utiliser une activité de copie pour copier des données d’une banque de données vers une autre.
3- Data set : pour son exécution, une activité doit consommer des données en entrée et produit des données en sortie, l’ensemble de ces données forme ce qu’on appelle un data set.
4- Services liés : Azure Data factory fait appel aux services liés pour deux raisons :
Pour représenter un magasin de données qui inclut, une base de données SQL Server, une base de données Oracle, un partage de fichiers ou un compte de stockage d’objets blob Azure.
Recommandé par LinkedIn
Pour représenter une ressource de calcul qui peut héberger l’exécution d’une activité.
Par exemple, l’activité HDInsightHive s’exécute sur un cluster HDInsight Hadoop.
Fonctionnement de l’ADF :
1- Connexion et collecte de données
La première étape dans la création d’un système de production d’informations est la connexion à toutes les sources de données et de traitement requises. Ces sources incluent des services SaaS, les partages de fichiers, FTP et les services web. Déplacez ensuite les données souhaitées vers un emplacement centralisé pour un traitement ultérieur.
2- Transformation des données
Une fois que les données sont présentes dans un magasin de données centralisé dans le cloud, traitez ou transférez-les à l’aide de services de calcul tels que HDInsight Hadoop, Spark, Data Lake Analytics et Machine Learning.
3- Publication des données et supervision
Remettez les données transformées depuis le cloud vers des sources locales telles que SQL Server. Vous pouvez également les conserver dans vos sources de stockage sur le cloud pour une consommation par BI, des outils analytiques et d’autres applications.
▪ A noter que les résultats des traitements peuvent être gardés sur le cloud ou retournées vers des emplacements de stockage locaux.
-----------------------------------------
Nawel AMGHAR
Consultante SharePoint & M365