[EP03] Fabric à l'épreuve de la pratique
"Time flies", comme on dit !
Voilà déjà plus d'un mois que l'offre #Fabric, la Data Platform en mode SaaS de #Microsoft, est sortie en Public Preview et presque autant de jours que le trial a été activé de mon côté.
J'ai donc pu faire des tests sur les briques de l'offre qui me concernent au quotidien et je profite de ce 3ème opus pour vous livrer mes impressions sur les points forts et les points d'amélioration qui n'engagent, bien évidemment, que mon humble personne :)
#Fabric, la "Prise en Main"
Si vous avez eu l'occasion de manipuler #PowerBI Service, pas d'inquiétude, vous êtes en terrain conquis ! La même URL permettra désormais d'accéder aux différentes expériences :
Avantage indéniable pour les amateurs du "All-in-One" qui apprécient de ne pas devoir basculer d'une interface à une autre, surtout avec cette récente nouveauté d'onglets flottants sur le menu de gauche :
et tout se fait / se regroupe sous l'étendard du classique Workspace de #PowerBI !
Nous ne sommes pourtant pas à l'abri de perturber les utilisateurs de #PowerBI qui peuvent se retrouver noyés dans de nouvelles fonctionnalités pas nécessairement utiles pour eux et vont finir par se demander si leur utilisation de #PowerBI risque d'être impactée…
Point d'inquiétude, la firme du Redmond n'ira pas balayer d'un revers de main le leader du marché de l'Analytics (depuis 2019 dixit #Gartner). L'usage et surtout le principe de licencing de #PowerBI reste le même (je vous invite à (re)lire l'épisode 2 de cette série pour mieux comprendre ;))
Attention donc à bien dissiper les doutes de vos Data Analysts et vos personas #PowerBI et à bien les accompagner vers cette phase #Fabric qui se généralise.
#Fabric, remplaçant de Synapse ?
Azure #Synapse Analytics est déjà une solution "All-in-One" prônant le PaaS et le contrôle aussi fin que possible.
Questions légitimes posées à maintes reprises. "#Fabric est l'umbrella qui va regrouper #Synapse et #PowerBI tout en les rendant plus simples et plus accessibles", "Pas d'inquiétude #Synapse est encore là" peut-on lire et comprendre sur les références Web.
Jusqu'à quand ? Surtout quand on voit que #Fabric reprend les fonctionnalités de #Synapse, les intègre dans le "thème" #PowerBI en leur apportant les principes affutés et réussis de ses "homologues" #Databricks et #Snowflake (Lakehouse, SaaS, Serverless, Spark robustifié, …)
Je n'ai pas encore de boule de cristal mais tout comme je voyais #PowerBI Desktop disparaître prochainement (ses atouts sont déportés progressivement dans le service…), je pense (et encore une fois ca n'engage que moi :)) que #Synapse tel qu'on le connaît actuellement finira par disparaître au profil de son pendant dans #Fabric… Wait and see ;)
#Fabric, Team #Lakehouse ou #Warehouse ?
Chacun sa préférence ! Qu'on vienne d'un passif tabulaire avec des contraintes bien rôdées et des données bien structurées ou que l'on soit ouvert (et parfois contraint) aux données non structurées ou semi structurées, on saura choisir sa voie sous #Fabric…
En effet, si vous êtes plutôt Team #Lakehouse, vous aurez :
Si vous êtes Team #Warehouse, vous aurez :
Vous remarquerez, au passage, les points communs entre un #Lakehouse et un #Warehouse notamment sur le point de terminaison SQL, le stockage des données sur #OneLake dans un format ouvert (delta, parquet) ou encore les fonctionnalités de reporting.
Pourquoi avoir à choisir quand on peut (si le scénario d'usage le permet ou le dicte) les combiner tous les deux dans une architecture moderne et robuste ?
#Fabric et l'intégration des données
Recommandé par LinkedIn
Data Factory, Data pipeline, Dataflow Gen2… autant d'appellations et de fonctionnalités accessibles à partir de plus d'un endroit dans #Fabric. Comment s'y retrouver et à quoi cela correspond ?
Cela devrait vous rappeler SSIS ou Azure Data Factory avec ses briques de flux de contrôle (Data pipeline) et de flux de données (Data flow Gen2).
J'ai personnellement apprécié l'expérience de "Copy data" via l'assistant (capable de générer automatiquement un foreach et les paramètres associés) et j'ai retrouvé certains de mes reflexes sous Azure Data Factory (en attendant la déclinaison de l'option récente de désactivation d'une tâche dans une pipeline ;)).
J'aurais, néanmoins, aimé que le menu bas de Azure Data Factory soit rebrandé en une expérience client plus agréable (un mix amélioré de SSIS et de Power Query) :
L'activité "Dataflow" vous permet d'appeler un flux de données (Dataflow Gen1 ou Gen2) depuis une pipeline. De quoi compléter, si besoin, votre T (de Transformation) dans votre flux ELT / ETL.
Je me suis toujours demandé pourquoi le Dataflow Gen1 se limitait à une cible Data Lake interne (ou externe sous Premium)… Et voilà que ma wishlist est entendue ! En effet, la Gen2 de Dataflow propose désormais un "vrai" ETL avec :
#Fabric, soucis rencontrés et points d'attention
Lors de mon essai du Dataflow Gen2, je me suis connecté à une source SQL Server On-Premise et malgré la fluidité du process jusqu'à la destination, je ne suis pas arrivé à actualiser mon Dataflow Gen2 pour une raison inconnue et une erreur farfelue :
Pas de solution miracle trouvée sur internet et ailleurs. Je me suis donc rabattue sur le Gen1 de Dataflow et cela a bien marché du premier coup… Je vais donc me dire (sans aucune certitude :)) que la priorité n'a sûrement pas été donnée aux sources On-Premises lors de cette preview…
Autre point d'attention, si comme moi, vous avez une cible #Snowflake, n'oubliez pas de prévoir un stage intermédiaire de type Azure Blob Storage (ou Amazon S3) afin de vous éviter cette erreur :
Sinon le connecteur #Snowflake dans #Fabric tient la route et assure une commande "Copy Into" avec des performances globalement intéressantes.
#Fabric, des extensions
Parce que #Microsoft #Fabric ne se limite pas à l'interface web "inspirée" de #PowerBI service mais vient également avec au moins 2 extensions intéressantes à considérer :
On dit que "le #OneLake est le #OneDrive pour la data". Avec cet explorateur, cette affirmation prend tout son sens ! Depuis L'explorateur Windows, vous pourrez accéder, à la manière d'un #OneDrive classique, au contenu synchronisé de vos Lakehouses et Warehouses (fichiers, parquets, delta) et même y déplacer manuellement ou automatiquement (avec le script adéquat) vos fichiers sources (CSV, Json, …) afin de les retraiter au format Delta / Parquet dans la foulée. En somme, un outil simple à installer et à utiliser que je ne peux que vous recommander !
Une app #PowerBI facile à ajouter (depuis l'AppSource) et à installer qui permet de remonter, dans un rapport #PowerBI, des indicateurs autour de l'usage de #Fabric.
Quel item est le plus gourmand en termes de mémoire utilisée, temps de process, usage CPU ? Quel item est le plus populaire auprès des utilisateurs ?
L'app nous donne des informations certes intéressantes sur les différents metrics mais je reste sur ma faim quant à la partie costing ou la scalabilité qu'il y a eu sur mes traitements !
Eh oui, n'oublions pas que nous sommes en phase de test et que le trial (calibré sur un F64 (équivalent à une capacité #Premium P1)) a une date limite ! Le choix du futur SKU Fx est important et l'information manque à ce niveau, je trouve… Je pensais que l'app suffirait mais visiblement pas !
Voilà donc pour ce tour d'horizon de #Fabric !
En résumé, et de ce que j'ai pu en tester, #Fabric est une offre intéressante d'un point de vue fonctionnalités. Le marché Data Platform ne fait que converger entre les différents acteurs et c'est plutôt rassurant.
J'ai pu, pour ma part, atteindre mes objectifs de test sous #Fabric sans trop de pépins. Certains bugs ou fonctionnalités mineures inexistantes nous rappelle que nous sommes encore en Preview et que l'offre va certainement se bonifier avec les différents feedbacks de la communauté.
Comme évoqué plus haut, je reste sur un goût d'inachevé sur la partie FinOps (vous avez consommé tel crédit, il y a eu tel scale up / down, ….) afin de pouvoir ajuster mes traitements et surtout me projeter sur une facturation réaliste (à défaut d'une réelle, utopique) dans un contexte projet !
D'ici à la sortie définitive de Microsoft #Fabric, les tests continuent de mon côté et vos feedbacks sont, bien évidemment, toujours les bienvenus !
A bientôt ;)
Apprenez à mieux piloter vos données grâce à la Data Governance et la Dataviz ✈️ +1K personnes francophones formées à Power BI
1 ansExcellente analyse, merci Mohamed
Microsoft Data Platform MVP | Analytics Engineer | BI Consultant | Power BI Expert | Microsoft Certified: Fabric Analytics Engineer Associate | Power BI Data Analyst Associate | Azure Data Engineer Associate
1 anstrès bonne analyse exhaustive 👍
Lead tech DATA / Expert Microsoft BI ( Fabric et Power BI) / Senior GCP Bigquery et DBT cloud / Conseiller DATA (organisations , gouvernance , architectures) / Data Analyst
1 ansBonjour Mohamed Ismael Quel courage de vouloir tester les produits Microsoft (MS compte sur nous pour le debug ;>) Moi j'ai arrêté des que j'ai vu qu'il manquait OPENROWSET() pour les tables & vues externes des lakehouses OU qu'il manquait l'incrémental dans dataflow gen2 a destination de ... Azure Data Lake Storage Gen2 (le storage par defaut) OU que mon test de direct lake dans pbi a planté 😁 En effet on est dans le brouillard sur le pay as you go Quand & à cause de qui le system a décidé d'upscaler le SKU F ? Peut on bloquer l'upscale comme dans power BI premium afin de mieux analyser les raisons des overloads (trouver les artefacts coupables de sur consommation de CPU lissé & evaluations box ) Pas grand chose aussi coté DEVOPS & CICD & Infra as code (workloads automatic creations) chez MS Fabric On aurait aimé un intégration Azure DEV ops plus poussée & simplifiée Je reviendrais voir dans 2 ans 😁