Microsoft Azure Data Factory

Microsoft Azure Data Factory

Vous disposez d’une volumétrie importante de données brutes ? vous trouvez des difficultés à les exploiter et à les rendre significatives ?

Microsoft vous propose un service pouvant orchestrer et exécuter des processus permettant d’affiner ces données brutes pour les transformer à des informations exploitables. Il s’agit du service Azure Data Factory (appelé : Fabrique de données).

C’est quoi ADF ?

Azure Data Factory (ADF) est un service cloud créé pour des projets complexes d’extraction, de transformation et de chargement (ETL), d’extraction, de chargement et de transformation (ELT) et d’intégration des données.

Cas d’usage :

•     Reprise de données de l’entreprise, remplacer un flux SSIS

•     Agrégation d’une grande volumétrie de données dans le cas de projets liés à la Business Intelligence et Machine Learning.

•     CI/ CD grâce à l’interaction avec GIT (contrôle de versions) et Azure DevOps

Composants d’ADF :

Azure Data Factory est constitué de quatre (4) composants principaux :

No alt text provided for this image

1-   Pipeline : une fabrique de données peut avoir un ou plusieurs pipelines. Un pipeline est un groupement logique d’activités. Ensemble, les activités d’un pipeline effectuent une tâche.

2-   Activité : un pipeline peut contenir une ou plusieurs activités. Les activités définissent les actions à effectuer sur les données.

Par exemple, vous pouvez utiliser une activité de copie pour copier des données d’une banque de données vers une autre.

3-   Data set : pour son exécution, une activité doit consommer des données en entrée et produit des données en sortie, l’ensemble de ces données forme ce qu’on appelle un data set.

4-   Services liés : Azure Data factory fait appel aux services liés pour deux raisons :

   Pour représenter un magasin de données qui inclut, une base de données SQL Server, une base de données Oracle, un partage de fichiers ou un compte de stockage d’objets blob Azure.

Pour représenter une ressource de calcul qui peut héberger l’exécution d’une activité.

      Par exemple, l’activité HDInsightHive s’exécute sur un cluster HDInsight Hadoop.

 

Fonctionnement de l’ADF :

No alt text provided for this image

1-    Connexion et collecte de données

La première étape dans la création d’un système de production d’informations est la connexion à toutes les sources de données et de traitement requises. Ces sources incluent des services SaaS, les partages de fichiers, FTP et les services web. Déplacez ensuite les données souhaitées vers un emplacement centralisé pour un traitement ultérieur.

2-    Transformation des données

Une fois que les données sont présentes dans un magasin de données centralisé dans le cloud, traitez ou transférez-les à l’aide de services de calcul tels que HDInsight Hadoop, Spark, Data Lake Analytics et Machine Learning.

3-    Publication des données et supervision

Remettez les données transformées depuis le cloud vers des sources locales telles que SQL Server. Vous pouvez également les conserver dans vos sources de stockage sur le cloud pour une consommation par BI, des outils analytiques et d’autres applications.

▪ A noter que les résultats des traitements peuvent être gardés sur le cloud ou retournées vers des emplacements de stockage locaux.


-----------------------------------------

Nawel AMGHAR

Consultante SharePoint & M365

Identifiez-vous pour afficher ou ajouter un commentaire

Plus d’articles de BBS Solutions

Autres pages consultées

Explorer les sujets