[EP03] Fabric à l'épreuve de la pratique

Mohamed Ismaïl BEN LAMINE

🌍Data & BI Manager | Tech Lead | Trainer🌍

Publié le 3 juil. 2023

"Time flies", comme on dit !

Voilà déjà plus d'un mois que l'offre #Fabric, la Data Platform en mode SaaS de #Microsoft, est sortie en Public Preview et presque autant de jours que le trial a été activé de mon côté.

J'ai donc pu faire des tests sur les briques de l'offre qui me concernent au quotidien et je profite de ce 3ème opus pour vous livrer mes impressions sur les points forts et les points d'amélioration qui n'engagent, bien évidemment, que mon humble personne :)

#Fabric, la "Prise en Main"

Si vous avez eu l'occasion de manipuler #PowerBI Service, pas d'inquiétude, vous êtes en terrain conquis ! La même URL permettra désormais d'accéder aux différentes expériences :

Avantage indéniable pour les amateurs du "All-in-One" qui apprécient de ne pas devoir basculer d'une interface à une autre, surtout avec cette récente nouveauté d'onglets flottants sur le menu de gauche :

et tout se fait / se regroupe sous l'étendard du classique Workspace de #PowerBI !

Nous ne sommes pourtant pas à l'abri de perturber les utilisateurs de #PowerBI qui peuvent se retrouver noyés dans de nouvelles fonctionnalités pas nécessairement utiles pour eux et vont finir par se demander si leur utilisation de #PowerBI risque d'être impactée…

Point d'inquiétude, la firme du Redmond n'ira pas balayer d'un revers de main le leader du marché de l'Analytics (depuis 2019 dixit #Gartner). L'usage et surtout le principe de licencing de #PowerBI reste le même (je vous invite à (re)lire l'épisode 2 de cette série pour mieux comprendre ;))

Attention donc à bien dissiper les doutes de vos Data Analysts et vos personas #PowerBI et à bien les accompagner vers cette phase #Fabric qui se généralise.

#Fabric, remplaçant de Synapse ?

Azure #Synapse Analytics est déjà une solution "All-in-One" prônant le PaaS et le contrôle aussi fin que possible.

Pourquoi donc tout rebrander sous #Fabric en SaaS ? Dois-je encore capitaliser sur #Synapse ?

Questions légitimes posées à maintes reprises. "#Fabric est l'umbrella qui va regrouper #Synapse et #PowerBI tout en les rendant plus simples et plus accessibles", "Pas d'inquiétude #Synapse est encore là" peut-on lire et comprendre sur les références Web.

Jusqu'à quand ? Surtout quand on voit que #Fabric reprend les fonctionnalités de #Synapse, les intègre dans le "thème" #PowerBI en leur apportant les principes affutés et réussis de ses "homologues" #Databricks et #Snowflake (Lakehouse, SaaS, Serverless, Spark robustifié, …)

Je n'ai pas encore de boule de cristal mais tout comme je voyais #PowerBI Desktop disparaître prochainement (ses atouts sont déportés progressivement dans le service…), je pense (et encore une fois ca n'engage que moi :)) que #Synapse tel qu'on le connaît actuellement finira par disparaître au profil de son pendant dans #Fabric… Wait and see ;)

#Fabric, Team #Lakehouse ou #Warehouse ?

Chacun sa préférence ! Qu'on vienne d'un passif tabulaire avec des contraintes bien rôdées et des données bien structurées ou que l'on soit ouvert (et parfois contraint) aux données non structurées ou semi structurées, on saura choisir sa voie sous #Fabric…

En effet, si vous êtes plutôt Team #Lakehouse, vous aurez :

Une capacité de stockage "illimitée" (pas de communication à ce sujet mais la facturation suivra ;)),
La simplicité de l'utilisation,
L'opportunité de coder en Spark (Scala, PySpark, Spark SQL, R) ou T-SQL même si vous arriverez à faire beaucoup de choses graphiquement,
La diversification des données (Fichiers, Tables),
La possibilité d'uploader et gérer des dossiers (arborescences) et des fichiers,
La possibilité de prévisualiser les données de votre fichier,
La facilité de passage d'un format fichier vers un format tabulaire basé sur le Delta / Parquet via un clic droit :

L'accès à un SQL Endpoint afin de faire des requêtes "simples" (DQL uniquement mais pas (encore ?) de DML ou DDL) et un seul schéma (dbo) possible (pour le moment…), du reporting ou encore faire de la modélisation,
Le stockage de vos données au niveau du #OneLake,
La possibilité de faire un #DirectLake (le mix amélioré des modes Import et Direct Query) sur vos données mais depuis #PowerBI (#Fabric) service uniquement (pour le moment…),
La possibilité de rajouter un #shortcut (un lien en Read-Only vers une source sans avoir à déplacer ses données) vers une source interne (dans le OneLake) ou externe (depuis Azure Data Lake Storage Gen 2 ou Amazon S3 uniquement (pour le moment…)).

Si vous êtes Team #Warehouse, vous aurez :

Le cadre usuel d'un entrepôt de données avec la possibilité de gérer des schémas, des procédures stockées, des vues, des tables, etc.,
La possibilité de faire du DQL, DML et DDL,
La possibilité de faire de la modélisation :

La possibilité de faire un rapport sur le dataset par défaut ou de créer un nouveau dataset :

La possibilité de faire un "Incremental Refresh" (option disponible mais grisée pour le moment),
Le stockage là aussi illimité de vos données au niveau du #OneLake --> Ce qui l'oppose directement à #PowerBI Datamart dont on n'entend plus trop parler mais dont les fonctionnalités sont bien reprises dans #Fabric…,
Un SQL Endpoint afin de pouvoir se connecter au #Warehouse depuis un outil externe (SQL Server Management Studio, Azure Data Studio, Power BI…).

Vous remarquerez, au passage, les points communs entre un #Lakehouse et un #Warehouse notamment sur le point de terminaison SQL, le stockage des données sur #OneLake dans un format ouvert (delta, parquet) ou encore les fonctionnalités de reporting.

Pourquoi avoir à choisir quand on peut (si le scénario d'usage le permet ou le dicte) les combiner tous les deux dans une architecture moderne et robuste ?

#Fabric et l'intégration des données

Recommandé par LinkedIn

L'intelligence artificielle au service des vracs…

Christian D. il y a 3 ans

Comment les nouvelles techniques de sauvegarde des…

Annaëlle Moss il y a 6 ans

PowerScale : La puissance de OneFS au service de la…

Jérôme Trousselle il y a 4 ans

Data Factory, Data pipeline, Dataflow Gen2… autant d'appellations et de fonctionnalités accessibles à partir de plus d'un endroit dans #Fabric. Comment s'y retrouver et à quoi cela correspond ?

Data Factory : il s'agit de l'un des piliers de l'offre #Fabric qui regroupe :

Cela devrait vous rappeler SSIS ou Azure Data Factory avec ses briques de flux de contrôle (Data pipeline) et de flux de données (Data flow Gen2).

Data pipeline : Les activités actuellement permises dans une pipeline sont :

J'ai personnellement apprécié l'expérience de "Copy data" via l'assistant (capable de générer automatiquement un foreach et les paramètres associés) et j'ai retrouvé certains de mes reflexes sous Azure Data Factory (en attendant la déclinaison de l'option récente de désactivation d'une tâche dans une pipeline ;)).

J'aurais, néanmoins, aimé que le menu bas de Azure Data Factory soit rebrandé en une expérience client plus agréable (un mix amélioré de SSIS et de Power Query) :

L'activité "Dataflow" vous permet d'appeler un flux de données (Dataflow Gen1 ou Gen2) depuis une pipeline. De quoi compléter, si besoin, votre T (de Transformation) dans votre flux ELT / ETL.

Dataflow Gen2 : certainement mon coup de cœur de l'offre enfin… presque !

Je me suis toujours demandé pourquoi le Dataflow Gen1 se limitait à une cible Data Lake interne (ou externe sous Premium)… Et voilà que ma wishlist est entendue ! En effet, la Gen2 de Dataflow propose désormais un "vrai" ETL avec :

Toujours la richesse des connecteurs multi-sources,
La puissance et la simplicité de Power Query,
Désormais la possibilité d'injecter ses données traitées dans une destination… Cloud et Microsoft uniquement (enfin pour le moment !)

#Fabric, soucis rencontrés et points d'attention

Lors de mon essai du Dataflow Gen2, je me suis connecté à une source SQL Server On-Premise et malgré la fluidité du process jusqu'à la destination, je ne suis pas arrivé à actualiser mon Dataflow Gen2 pour une raison inconnue et une erreur farfelue :

Pas de solution miracle trouvée sur internet et ailleurs. Je me suis donc rabattue sur le Gen1 de Dataflow et cela a bien marché du premier coup… Je vais donc me dire (sans aucune certitude :)) que la priorité n'a sûrement pas été donnée aux sources On-Premises lors de cette preview…

Autre point d'attention, si comme moi, vous avez une cible #Snowflake, n'oubliez pas de prévoir un stage intermédiaire de type Azure Blob Storage (ou Amazon S3) afin de vous éviter cette erreur :

Sinon le connecteur #Snowflake dans #Fabric tient la route et assure une commande "Copy Into" avec des performances globalement intéressantes.

#Fabric, des extensions

Parce que #Microsoft #Fabric ne se limite pas à l'interface web "inspirée" de #PowerBI service mais vient également avec au moins 2 extensions intéressantes à considérer :

OneLake File Explorer

On dit que "le #OneLake est le #OneDrive pour la data". Avec cet explorateur, cette affirmation prend tout son sens ! Depuis L'explorateur Windows, vous pourrez accéder, à la manière d'un #OneDrive classique, au contenu synchronisé de vos Lakehouses et Warehouses (fichiers, parquets, delta) et même y déplacer manuellement ou automatiquement (avec le script adéquat) vos fichiers sources (CSV, Json, …) afin de les retraiter au format Delta / Parquet dans la foulée. En somme, un outil simple à installer et à utiliser que je ne peux que vous recommander !

Microsoft Fabric capacity metrics

Une app #PowerBI facile à ajouter (depuis l'AppSource) et à installer qui permet de remonter, dans un rapport #PowerBI, des indicateurs autour de l'usage de #Fabric.

Quel item est le plus gourmand en termes de mémoire utilisée, temps de process, usage CPU ? Quel item est le plus populaire auprès des utilisateurs ?

L'app nous donne des informations certes intéressantes sur les différents metrics mais je reste sur ma faim quant à la partie costing ou la scalabilité qu'il y a eu sur mes traitements !

Eh oui, n'oublions pas que nous sommes en phase de test et que le trial (calibré sur un F64 (équivalent à une capacité #Premium P1)) a une date limite ! Le choix du futur SKU Fx est important et l'information manque à ce niveau, je trouve… Je pensais que l'app suffirait mais visiblement pas !

Voilà donc pour ce tour d'horizon de #Fabric !

En résumé, et de ce que j'ai pu en tester, #Fabric est une offre intéressante d'un point de vue fonctionnalités. Le marché Data Platform ne fait que converger entre les différents acteurs et c'est plutôt rassurant.

J'ai pu, pour ma part, atteindre mes objectifs de test sous #Fabric sans trop de pépins. Certains bugs ou fonctionnalités mineures inexistantes nous rappelle que nous sommes encore en Preview et que l'offre va certainement se bonifier avec les différents feedbacks de la communauté.

Comme évoqué plus haut, je reste sur un goût d'inachevé sur la partie FinOps (vous avez consommé tel crédit, il y a eu tel scale up / down, ….) afin de pouvoir ajuster mes traitements et surtout me projeter sur une facturation réaliste (à défaut d'une réelle, utopique) dans un contexte projet !

D'ici à la sortie définitive de Microsoft #Fabric, les tests continuent de mon côté et vos feedbacks sont, bien évidemment, toujours les bienvenus !

A bientôt ;)

Johann VIENNET ✈️

Apprenez à mieux piloter vos données grâce à la Data Governance et la Dataviz ✈️ +1K personnes francophones formées à Power BI

1 ans

Excellente analyse, merci Mohamed

J’aime

Réagir

1 réaction

Amal BEN REBAI

1 ans

très bonne analyse exhaustive 👍

J’aime

Réagir

1 réaction

👉 Christophe Hervouet

Lead tech DATA / Expert Microsoft BI ( Fabric et Power BI) / Senior GCP Bigquery et DBT cloud / Conseiller DATA (organisations , gouvernance , architectures) / Data Analyst

1 ans

Bonjour Mohamed Ismael Quel courage de vouloir tester les produits Microsoft (MS compte sur nous pour le debug ;>) Moi j'ai arrêté des que j'ai vu qu'il manquait OPENROWSET() pour les tables & vues externes des lakehouses OU qu'il manquait l'incrémental dans dataflow gen2 a destination de ... Azure Data Lake Storage Gen2 (le storage par defaut) OU que mon test de direct lake dans pbi a planté 😁 En effet on est dans le brouillard sur le pay as you go Quand & à cause de qui le system a décidé d'upscaler le SKU F ? Peut on bloquer l'upscale comme dans power BI premium afin de mieux analyser les raisons des overloads (trouver les artefacts coupables de sur consommation de CPU lissé & evaluations box ) Pas grand chose aussi coté DEVOPS & CICD & Infra as code (workloads automatic creations) chez MS Fabric On aurait aimé un intégration Azure DEV ops plus poussée & simplifiée Je reviendrais voir dans 2 ans 😁

J’aime

Réagir

1 réaction

Voir plus de commentaires

Identifiez-vous pour afficher ou ajouter un commentaire

Tout voir

[EP03] Fabric à l'épreuve de la pratique

Mohamed Ismaïl BEN LAMINE

🌍Data & BI Manager | Tech Lead | Trainer🌍

Recommandé par LinkedIn

Plus d’articles de la même personne

Autres pages consultées

PowerScale : La puissance de OneFS au service de la donnée non structurée

IPFS et la décentralisation du WEB

Services et microservices : appels et réponses - Partie 2

Reconnaître la complexité de nos univers logiciels

L’hypervision à l’heure de l’observabilité

PARLONS TECH - Timestream : Base de données de séries chronologiques rapide, évolutive et sans serveur

Réagissez aux événements technologiques de la semaine du 21 mars 2016

S15/2019 - Revue de presse technos #gcp #next #sfeirlille #golang #java

Devenir architecte AWS en 6 soirées ou 3 en samedi

Réagissez aux événements technologiques SI retenus dans la semaine du 18/01/201

Explorer les sujets

Recommandé par LinkedIn

Power BI Org Apps, entre mythe et réalité…

10 déc. 2024

Après le Warehouse, le Lakehouse et l'Eventhouse, voici Fabric Databases !

25 nov. 2024

Snowflake, Back To Basics : Tour d'horizon (Ep.01)

30 août 2024

What's new in the Power BI and Fabric world? (March 2024)

27 mars 2024

#PowerBI : Thoughts about Visual calculations and Generate measure descriptions with Copilot (preview)

20 févr. 2024

Power BI, enfin un vrai travail d'équipe !

15 juin 2023

[EP02] #Fabric, et si on parlait licensing ?

5 juin 2023

[EP01] #Fabric, votre nouveau tissu pour faire... de la Data !

24 mai 2023

Autres pages consultées

PowerScale : La puissance de OneFS au service de la donnée non structurée

IPFS et la décentralisation du WEB

Services et microservices : appels et réponses - Partie 2

Reconnaître la complexité de nos univers logiciels

L’hypervision à l’heure de l’observabilité

PARLONS TECH - Timestream : Base de données de séries chronologiques rapide, évolutive et sans serveur

Réagissez aux événements technologiques de la semaine du 21 mars 2016

S15/2019 - Revue de presse technos #gcp #next #sfeirlille #golang #java

Devenir architecte AWS en 6 soirées ou 3 en samedi

Réagissez aux événements technologiques SI retenus dans la semaine du 18/01/201

Explorer les sujets