[EP03] Fabric à l'épreuve de la pratique
Credit : Microsoft

[EP03] Fabric à l'épreuve de la pratique

"Time flies", comme on dit ! 

Voilà déjà plus d'un mois que l'offre #Fabric, la Data Platform en mode SaaS de #Microsoft, est sortie en Public Preview et presque autant de jours que le trial a été activé de mon côté.  

J'ai donc pu faire des tests sur les briques de l'offre qui me concernent au quotidien et je profite de ce 3ème opus pour vous livrer mes impressions sur les points forts et les points d'amélioration qui n'engagent, bien évidemment, que mon humble personne :)

#Fabric, la "Prise en Main" 

Si vous avez eu l'occasion de manipuler #PowerBI Service, pas d'inquiétude, vous êtes en terrain conquis ! La même URL permettra désormais d'accéder aux différentes expériences : 

No alt text provided for this image

Avantage indéniable pour les amateurs du "All-in-One" qui apprécient de ne pas devoir basculer d'une interface à une autre, surtout avec cette récente nouveauté d'onglets flottants sur le menu de gauche :   

No alt text provided for this image


 








et tout se fait / se regroupe sous l'étendard du classique Workspace de #PowerBI !   

Nous ne sommes pourtant pas à l'abri de perturber les utilisateurs de #PowerBI qui peuvent se retrouver noyés dans de nouvelles fonctionnalités pas nécessairement utiles pour eux et vont finir par se demander si leur utilisation de #PowerBI risque d'être impactée…  

Point d'inquiétude, la firme du Redmond n'ira pas balayer d'un revers de main le leader du marché de l'Analytics (depuis 2019 dixit #Gartner). L'usage et surtout le principe de licencing de #PowerBI reste le même (je vous invite à (re)lire l'épisode 2 de cette série pour mieux comprendre ;)) 

Attention donc à bien dissiper les doutes de vos Data Analysts et vos personas #PowerBI et à bien les accompagner vers cette phase #Fabric qui se généralise. 

#Fabric, remplaçant de Synapse ? 

Azure #Synapse Analytics est déjà une solution "All-in-One" prônant le PaaS et le contrôle aussi fin que possible.  

Pourquoi donc tout rebrander sous #Fabric en SaaS ? Dois-je encore capitaliser sur #Synapse ?  

Questions légitimes posées à maintes reprises. "#Fabric est l'umbrella qui va regrouper #Synapse et #PowerBI tout en les rendant plus simples et plus accessibles", "Pas d'inquiétude #Synapse est encore là" peut-on lire et comprendre sur les références Web.  

Jusqu'à quand ? Surtout quand on voit que #Fabric reprend les fonctionnalités de #Synapse, les intègre dans le "thème" #PowerBI en leur apportant les principes affutés et réussis de ses "homologues" #Databricks et #Snowflake (Lakehouse, SaaS, Serverless, Spark robustifié, …) 

Je n'ai pas encore de boule de cristal mais tout comme je voyais #PowerBI Desktop disparaître prochainement (ses atouts sont déportés progressivement dans le service…), je pense (et encore une fois ca n'engage que moi :)) que #Synapse tel qu'on le connaît actuellement finira par disparaître au profil de son pendant dans #Fabric… Wait and see ;)

#Fabric, Team #Lakehouse ou #Warehouse ? 

Chacun sa préférence ! Qu'on vienne d'un passif tabulaire avec des contraintes bien rôdées et des données bien structurées ou que l'on soit ouvert (et parfois contraint) aux données non structurées ou semi structurées, on saura choisir sa voie sous #Fabric… 

En effet, si vous êtes plutôt Team #Lakehouse, vous aurez : 

  • Une capacité de stockage "illimitée" (pas de communication à ce sujet mais la facturation suivra ;)),  
  • La simplicité de l'utilisation, 
  • L'opportunité de coder en Spark (Scala, PySpark, Spark SQL, R) ou T-SQL même si vous arriverez à faire beaucoup de choses graphiquement, 
  • La diversification des données (Fichiers, Tables), 
  • La possibilité d'uploader et gérer des dossiers (arborescences) et des fichiers,  
  • La possibilité de prévisualiser les données de votre fichier, 
  • La facilité de passage d'un format fichier vers un format tabulaire basé sur le Delta / Parquet via un clic droit : 

No alt text provided for this image

  • L'accès à un SQL Endpoint afin de faire des requêtes "simples" (DQL uniquement mais pas (encore ?) de DML ou DDL) et un seul schéma (dbo) possible (pour le moment…), du reporting ou encore faire de la modélisation, 
  • Le stockage de vos données au niveau du #OneLake
  • La possibilité de faire un #DirectLake (le mix amélioré des modes Import et Direct Query) sur vos données mais depuis #PowerBI (#Fabric) service uniquement (pour le moment…), 
  • La possibilité de rajouter un #shortcut (un lien en Read-Only vers une source sans avoir à déplacer ses données) vers une source interne (dans le OneLake) ou externe (depuis Azure Data Lake Storage Gen 2 ou Amazon S3 uniquement (pour le moment…)). 

Si vous êtes Team #Warehouse, vous aurez : 

  • Le cadre usuel d'un entrepôt de données avec la possibilité de gérer des schémas, des procédures stockées, des vues, des tables, etc., 
  • La possibilité de faire du DQL, DML et DDL, 
  • La possibilité de faire de la modélisation : 

No alt text provided for this image

  • La possibilité de faire un rapport sur le dataset par défaut ou de créer un nouveau dataset : 

No alt text provided for this image

  • La possibilité de faire un "Incremental Refresh" (option disponible mais grisée pour le moment), 
  • Le stockage là aussi illimité de vos données au niveau du #OneLake --> Ce qui l'oppose directement à #PowerBI Datamart dont on n'entend plus trop parler mais dont les fonctionnalités sont bien reprises dans #Fabric…, 
  • Un SQL Endpoint afin de pouvoir se connecter au #Warehouse depuis un outil externe (SQL Server Management Studio, Azure Data Studio, Power BI…).  

Vous remarquerez, au passage, les points communs entre un #Lakehouse et un #Warehouse notamment sur le point de terminaison SQL, le stockage des données sur #OneLake dans un format ouvert (delta, parquet) ou encore les fonctionnalités de reporting.

Pourquoi avoir à choisir quand on peut (si le scénario d'usage le permet ou le dicte) les combiner tous les deux dans une architecture moderne et robuste ?  

#Fabric et l'intégration des données  

Data Factory, Data pipeline, Dataflow Gen2… autant d'appellations et de fonctionnalités accessibles à partir de plus d'un endroit dans #Fabric. Comment s'y retrouver et à quoi cela correspond ? 

  • Data Factory : il s'agit de l'un des piliers de l'offre #Fabric qui regroupe : 

No alt text provided for this image

Cela devrait vous rappeler SSIS ou Azure Data Factory avec ses briques de flux de contrôle (Data pipeline) et de flux de données (Data flow Gen2). 

  • Data pipeline : Les activités actuellement permises dans une pipeline sont : 

No alt text provided for this image

J'ai personnellement apprécié l'expérience de "Copy data" via l'assistant (capable de générer automatiquement un foreach et les paramètres associés) et j'ai retrouvé certains de mes reflexes sous Azure Data Factory (en attendant la déclinaison de l'option récente de désactivation d'une tâche dans une pipeline ;)).   

J'aurais, néanmoins, aimé que le menu bas de Azure Data Factory soit rebrandé en une expérience client plus agréable (un mix amélioré de SSIS et de Power Query) :

No alt text provided for this image

L'activité "Dataflow" vous permet d'appeler un flux de données (Dataflow Gen1 ou Gen2) depuis une pipeline. De quoi compléter, si besoin, votre T (de Transformation) dans votre flux ELT / ETL. 

  • Dataflow Gen2 : certainement mon coup de cœur de l'offre enfin… presque ! 

Je me suis toujours demandé pourquoi le Dataflow Gen1 se limitait à une cible Data Lake interne (ou externe sous Premium)… Et voilà que ma wishlist est entendue ! En effet, la Gen2 de Dataflow propose désormais un "vrai" ETL avec :  

  • Toujours la richesse des connecteurs multi-sources, 
  • La puissance et la simplicité de Power Query, 
  • Désormais la possibilité d'injecter ses données traitées dans une destination… Cloud et Microsoft uniquement (enfin pour le moment !) 

No alt text provided for this image






#Fabric, soucis rencontrés et points d'attention 

Lors de mon essai du Dataflow Gen2, je me suis connecté à une source SQL Server On-Premise et malgré la fluidité du process jusqu'à la destination, je ne suis pas arrivé à actualiser mon Dataflow Gen2 pour une raison inconnue et une erreur farfelue : 

No alt text provided for this image
No alt text provided for this image

Pas de solution miracle trouvée sur internet et ailleurs. Je me suis donc rabattue sur le Gen1 de Dataflow et cela a bien marché du premier coup… Je vais donc me dire (sans aucune certitude :)) que la priorité n'a sûrement pas été donnée aux sources On-Premises lors de cette preview… 

Autre point d'attention, si comme moi, vous avez une cible #Snowflake, n'oubliez pas de prévoir un stage intermédiaire de type Azure Blob Storage (ou Amazon S3) afin de vous éviter cette erreur : 

No alt text provided for this image

Sinon le connecteur #Snowflake dans #Fabric tient la route et assure une commande "Copy Into" avec des performances globalement intéressantes. 

#Fabric, des extensions 

Parce que #Microsoft #Fabric ne se limite pas à l'interface web "inspirée" de #PowerBI service mais vient également avec au moins 2 extensions intéressantes à considérer :  

On dit que "le #OneLake est le #OneDrive pour la data". Avec cet explorateur, cette affirmation prend tout son sens ! Depuis L'explorateur Windows, vous pourrez accéder, à la manière d'un #OneDrive classique, au contenu synchronisé de vos Lakehouses et Warehouses (fichiers, parquets, delta) et même y déplacer manuellement ou automatiquement (avec le script adéquat) vos fichiers sources (CSV, Json, …) afin de les retraiter au format Delta / Parquet dans la foulée. En somme, un outil simple à installer et à utiliser que je ne peux que vous recommander !  

Une app #PowerBI facile à ajouter (depuis l'AppSource) et à installer qui permet de remonter, dans un rapport #PowerBI, des indicateurs autour de l'usage de #Fabric.  

Quel item est le plus gourmand en termes de mémoire utilisée, temps de process, usage CPU ? Quel item est le plus populaire auprès des utilisateurs ? 

L'app nous donne des informations certes intéressantes sur les différents metrics mais je reste sur ma faim quant à la partie costing ou la scalabilité qu'il y a eu sur mes traitements !  

Eh oui, n'oublions pas que nous sommes en phase de test et que le trial (calibré sur un F64 (équivalent à une capacité #Premium P1)) a une date limite ! Le choix du futur SKU Fx est important et l'information manque à ce niveau, je trouve… Je pensais que l'app suffirait mais visiblement pas ! 

Voilà donc pour ce tour d'horizon de #Fabric !  

En résumé, et de ce que j'ai pu en tester, #Fabric est une offre intéressante d'un point de vue fonctionnalités. Le marché Data Platform ne fait que converger entre les différents acteurs et c'est plutôt rassurant.  

J'ai pu, pour ma part, atteindre mes objectifs de test sous #Fabric sans trop de pépins. Certains bugs ou fonctionnalités mineures inexistantes nous rappelle que nous sommes encore en Preview et que l'offre va certainement se bonifier avec les différents feedbacks de la communauté. 

Comme évoqué plus haut, je reste sur un goût d'inachevé sur la partie FinOps (vous avez consommé tel crédit, il y a eu tel scale up / down, ….) afin de pouvoir ajuster mes traitements et surtout me projeter sur une facturation réaliste (à défaut d'une réelle, utopique) dans un contexte projet !  

D'ici à la sortie définitive de Microsoft #Fabric, les tests continuent de mon côté et vos feedbacks sont, bien évidemment, toujours les bienvenus !  

A bientôt ;) 

Johann VIENNET ✈️

Apprenez à mieux piloter vos données grâce à la Data Governance et la Dataviz ✈️ +1K personnes francophones formées à Power BI

1 ans

Excellente analyse, merci Mohamed

Amal BEN REBAI

Microsoft Data Platform MVP | Analytics Engineer | BI Consultant | Power BI Expert | Microsoft Certified: Fabric Analytics Engineer Associate | Power BI Data Analyst Associate | Azure Data Engineer Associate

1 ans

très bonne analyse exhaustive 👍

👉 Christophe Hervouet

Lead tech DATA / Expert Microsoft BI ( Fabric et Power BI) / Senior GCP Bigquery et DBT cloud / Conseiller DATA (organisations , gouvernance , architectures) / Data Analyst

1 ans

Bonjour Mohamed Ismael Quel courage de vouloir tester les produits Microsoft (MS compte sur nous pour le debug ;>) Moi j'ai arrêté des que j'ai vu qu'il manquait OPENROWSET() pour les tables & vues externes des lakehouses OU qu'il manquait l'incrémental dans dataflow gen2 a destination de ... Azure Data Lake Storage Gen2  (le storage par defaut) OU que mon test de direct lake dans pbi a planté 😁 En effet on est dans le brouillard sur le pay as you go Quand & à cause de qui le system a décidé d'upscaler le SKU F ? Peut on bloquer l'upscale comme dans power BI premium afin de mieux analyser les raisons des overloads (trouver les artefacts coupables de sur consommation de CPU lissé & evaluations box ) Pas grand chose aussi coté DEVOPS & CICD & Infra as code (workloads automatic creations) chez MS Fabric On aurait aimé un intégration Azure DEV ops plus poussée & simplifiée Je reviendrais voir dans 2 ans 😁

Identifiez-vous pour afficher ou ajouter un commentaire

Autres pages consultées

Explorer les sujets