Enfin, un projet open source pour les pros la data et de l'analytique ! Pas seulement de la tech 🛠 L'écosystème data regorge de repos et d'outils open sources : sckit learn, pandas, dbt, polars, dlt, etc Top ! Mais orienté tech : algo, API, gestion des erreurs, etc. Ni ma came ni mon coeur de métier. La data commence par le business, finit par le business, avec de la tech au milieu. Je veux travailler avec des données qui ont un contexte de collecte, une utilisation, puis dérouler la solution tech pour y arriver. Les données publiques sont parfaites pour cet exercice. Collectées dans un cadre connu et utilisées partout. Il y'a plus qu'à utiliser les bonnes technos au bon endroit ! C'est l'ambition de https://make-open-data.fr/ Venez nous aider à la transformer en produit data consommable par le maximum d'utilisateurs. Que vous soyez profanes en quête de votre premier group by sur un million de lignes, ou ceinture noire brûlant de soif de discussion ontologie ou CI/CD. Si vous êtes juste enthousiaste, n'hésitez pas à nous encourager avec une petite étoile sur GitHub : https://lnkd.in/dfT6nJq7 Si vous voulez les données nettoyées, les voici : https://lnkd.in/dZDx33CM
Post de Soufiane Khoudmi
Plus de posts pertinents
-
Coalesce 2024 à Vegas est terminé, et il est temps d'en tirer les meilleurs enseignements pour avancer dans ton quotidien data ! Voici ce que tu dois retenir : - AI Copilot de dbt : Une nouveauté qui simplifie la création de modèles tout en optimisant la qualité des données et réduisant les erreurs avant la production. - Collaboration et scalabilité : L'accent a été mis sur l'importance de la collaboration entre équipes data et sur des solutions pour faire face à l'explosion des volumes de données via l'automatisation. - Nouvelles intégrations : dbt s'enrichit avec Apache Iceberg, Power BI et DuckDB, facilitant la gestion des pipelines et la gouvernance des données à grande échelle. Alors, prêt(e) à adopter ces innovations ? Partage en commentaire comment tu comptes intégrer l'IA et ces nouvelles pratiques dans tes projets data ! dbt Labs #dbt
Identifiez-vous pour afficher ou ajouter un commentaire
-
Petite lecture avant ce week-end prolongé pour beaucoup d'entre nous ! Je me prête au jeu de la rédaction d'article pour notre blog #KomeetTechnologies, sujet du jour "La self-service BI à l'heure des LLM" Le pitch : La Self-Service BI modifie fondamentalement le paysage des entreprises en permettant à chaque utilisateur de gérer directement ses propres données. Cette autonomie promet une prise de décision plus rapide, tout en présentant certains défis. Comment les Large Language Models (LLM) peuvent-ils aider à surmonter ces obstacles ? 🔗 https://lnkd.in/dJb-CKEK Bonne lecture à tous ! #BusinessIntelligence #DataAnalytics #LLM #DataGovernance #Tech #DataDriven #BI #KomeetTechnologies
Identifiez-vous pour afficher ou ajouter un commentaire
-
🚀 𝐄𝐓𝐋 : 𝐋𝐞 𝐦𝐨𝐭𝐞𝐮𝐫 𝐜𝐚𝐜𝐡𝐞́ 𝐝𝐞𝐫𝐫𝐢𝐞̀𝐫𝐞 𝐯𝐨𝐬 𝐦𝐨𝐝𝐞̀𝐥𝐞𝐬 𝐝𝐞 𝐌𝐋 𝐪𝐮𝐢 𝐟𝐚𝐢𝐭 𝐭𝐨𝐮𝐭𝐞 𝐥𝐚 𝐝𝐢𝐟𝐟𝐞́𝐫𝐞𝐧𝐜𝐞 ! Pour effectuer des analyses et mettre sur pied des modèles de ML, on a recours à des données qui sont, pour la plupart, déjà disponibles et parfois déjà transformées. Mais savez-vous tout le processus qui est effectué en arrière-plan pour avoir ces données ? 🔄 𝐋𝐞 𝐩𝐫𝐨𝐜𝐞𝐬𝐬𝐮𝐬 𝐄𝐓𝐋 (𝐄𝐱𝐭𝐫𝐚𝐜𝐭, 𝐓𝐫𝐚𝐧𝐬𝐟𝐨𝐫𝐦, 𝐋𝐨𝐚𝐝) est souvent le héros méconnu de l'analyse de données : 📥 𝐄𝐱𝐭𝐫𝐚𝐜𝐭 : C'est l'art de collecter les données brutes depuis diverses sources - bases de données, fichiers CSV, APIs, logs systèmes... Une étape cruciale qui demande rigueur et précision. 🔧 𝐓𝐫𝐚𝐧𝐬𝐟𝐨𝐫𝐦 : La phase la plus complexe où la donnée brute devient exploitable. Nettoyage, standardisation, agrégation, enrichissement... C'est ici que la donnée prend tout son sens. 📤 𝐋𝐨𝐚𝐝 : L'étape finale où les données transformées sont chargées dans leur destination finale (data warehouse, data lake...), prêtes à être analysées. 💡 Sans un processus ETL robuste, pas de données fiables, et sans données fiables, pas d'analyses pertinentes ni de modèles ML performants ! Qu'en pensez-vous ? Partagez vos expériences avec les processus ETL ! #DataEngineering #ETL #DataScience #MachineLearning #DataAnalytics
Identifiez-vous pour afficher ou ajouter un commentaire
-
Quand Emeric m'a proposé d'écrire la préface de l'ouvrage "The Definitive Guide to Data Integration", je n'ai pas hésité une seconde, et cela m'a replongé 25 années en arrières. Voici comment mon histoire "DATA" a commencé : 🚀 1998, Ignition J’ai découvert le marché de l’intégration de données en 1998 lorsque la société pour laquelle je travaille comme consultant en base de données se fait racheter par un éditeur de logiciel Américain. Cet éditeur spécialiste de l’intégration de données, propose un #ETL graphique s’appuyant sur un moteur de transformation. On tire des traits à la souris entre les sources de données et les systèmes cibles pour développer les interfaces de mouvement de données alimentant les applications analytiques. Une approche design-as-you-think étonnante surtout qu’à cette époque, on développe du code. Du C++, pour garantir la robustesse et la performance des applications. L’alimentation des entrepôts de données se fait en mode batch via des chaînes de traitement en SQL, l’orchestration et le monitoring des différentes étapes d’intégration s’exécutent en shell script. ⏩ Les 3Vs (1) ! Nous étions à mille lieues de penser que cette solution ETL low-code no-code allait devenir un standard adopté par les plus grandes entreprises et que la révolution du monde de la data était en marche. Tout s’est enchaîné rapidement. Des volumes de données croissants à traiter, des sources et des applications à intégrer plus nombreuses, des contraintes opérationnelles fortes et des délais de plus en plus courts pour servir les clients. Les outils data, les architectures et les pratiques devaient évoluer en même temps. Intégrer des données au fil de l’eau, les stocker, gérer la qualité des données, les données de référence, améliorer la collaboration entre les équipes métiers et techniques au travers de programmes de gouvernance, développer de nouvelles applications dans le cloud, autant de défis à relever par les équipes data pour garantir l’excellence opérationnelle ! 🧬 IA : une nouvelle ère ! Ces 25 dernières années se sont déroulées en un instant, la révolution continue et ma passion pour les métiers de la #data aussi. L’intelligence artificielle, démocratisée par le succès incontestable de ChatGPT, nécessite de traiter des quantités de données gigantesques pour constituer ses modèles et va devoir s’appuyer encore plus sur la data ingénierie. Ce livre, écrit par des experts ayant déployé de nombreux projets data, fournit un aperçu complet de ce qu’est l'intégration de données. Je remercie sincèrement Emeric Chaize, Pierre-Yves BONNEFOY, Raphaël MANSUY et Mehdi TAZI de l’avoir écrit ! Cet ouvrage couvre les concepts, techniques et outils essentiels que tout professionnel de la data doit connaître pour créer de la valeur et transformer son entreprise. Je vous souhaite de prendre autant de plaisir que moi à le parcourir ! Stéphane Heckel (1) Volume, Velocity, Variety Lien vers le blog : https://lnkd.in/esk67KTw #dataintegration
Identifiez-vous pour afficher ou ajouter un commentaire
-
Nous sommes ravis de partager avec vous notre dernière vidéo mettant en lumière l'intégration des technologies de pointe pour révolutionner le traitement des données massives. Chez DataFad Labs, nous combinons la puissance des Beowulf Clusters et la flexibilité d'Hadoop pour offrir des solutions de calcul haute performance inégalées. Dans cette vidéo, vous découvrirez : 🔹 Beowulf Clusters en action Plongez dans le fonctionnement des Beowulf Clusters et voyez comment nous exploitons des réseaux d'ordinateurs interconnectés pour traiter des calculs complexes de manière distribuée. 🔹 Intégration avec Hadoop Découvrez comment nous utilisons Hadoop pour gérer et analyser de vastes quantités de données, en tirant parti de son cadre robuste et flexible pour des opérations de Big Data. 🔹 Projets innovants Explorez les projets passionnants sur lesquels nous travaillons et voyez comment nous repoussons les limites du possible en matière de traitement de données et de calcul haute performance. 🔹 Démonstrations pratiques Assistez à des démonstrations concrètes qui illustrent l'application de ces technologies dans des contextes réels, montrant comment nous transformons des données massives en insights exploitables. Ne manquez pas cette occasion unique de plonger au cœur des innovations de DataFad Labs. Regardez la vidéo maintenant et partagez vos impressions avec nous ! 📺 [Regarder la vidéo ici] #DataFadLabs #BigData #BeowulfCluster #Hadoop #HighPerformanceComputing #DataScience #Innovation #Technologie #AnalyseDeDonnées
Identifiez-vous pour afficher ou ajouter un commentaire
-
Vous vous questionnez sur l'IA générative ⁉ Vous vous demandez quels sont les exemples concrets d'application en entreprise ? 💡 Un exemple de ce que peut faire Alteca en accompagnement de nos clients sur ces sujets avec notre client bancaire au Luxembourg Et à dispo pour en savoir plus #DataScience #BigData #IA #MachineLearning #Banque #Innovation #DataEngineering #GCP #Postgres #vLLM #Langchain #Embedding
🚀 DataFab by Alteca révolutionne la gestion de l'information avec l'IA générative ! 🚀 Nous sommes ravis de partager notre dernier projet innovant avec une grande banque . Grâce à notre expertise en IA générative et data science, nous avons développé une solution moderne pour optimiser la recherche d'informations en langage naturel. 🎯 Défi du client : Notre client dispose de plus de 100 bases de données structurées et non structurées (PDF, HTML, CRM etc.), rendant la recherche d'informations fastidieuse et chronophage pour les utilisateurs. 🔍 Solution DataFab by Alteca : Un employé de la banque pose une question en langage naturel. Notre système comprend la question, la restreint au contexte des données de la banque, puis recherche l'information la plus pertinente ( vLLM, Vector Database - Agents : génération et exécution sécurisée de SQL multi-bases) et utilise l'IA générative Llama 3 pour générer une réponse fluide et naturelle. Le système récupère également des informations pertinentes depuis le CRM interne tout en gérant les droits d'accès pour garantir la sécurité des données. 📈 Bénéfices client : Réduction drastique du temps de recherche d'informations Amélioration de la précision et de la pertinence des réponses Optimisation des processus internes et meilleure conformité légale 🚀 Pourquoi choisir DataFab by Alteca ? Nos architectes et ingénieurs Data apportent une expertise sur toute la chaîne de traitement moderne de la donnée, assurant des solutions sécurisées et performantes en production pour nos clients. Vous avez un projet ? Contactez nos experts 👉 Daniel Stabile Frank Facundo Evelyne Su Benoit Lienard Nicolas Poullias Sophie Dourlent 🚀🤖 Tristan MULLER #DataScience #BigData #IA #MachineLearning #Banque #Innovation #DataEngineering #GCP #Postgres #vLLM #Langchain #Embedding
Identifiez-vous pour afficher ou ajouter un commentaire
-
En Data Engineering, Spark est un outil très demandé parce qu'il permet de travailler avec un cluster de machine et de manipuler une volumétrie incroyable de données ! J'ai voulu me préparer à ce type de besoin, et j'ai appris pas mal de choses ! (voir Caroussel ci-dessous 😉 ) Vous connaissez la différence entre une transformation et une action ? Je compte bien continuer à progresser sur ces sujets. D'ici là, merci à tous pour vos encouragements 😁 Benjamin Dubreu #DataUpskilling #Spark
Identifiez-vous pour afficher ou ajouter un commentaire
-
🚀 DataFab by Alteca révolutionne la gestion de l'information avec l'IA générative ! 🚀 Nous sommes ravis de partager notre dernier projet innovant avec une grande banque . Grâce à notre expertise en IA générative et data science, nous avons développé une solution moderne pour optimiser la recherche d'informations en langage naturel. 🎯 Défi du client : Notre client dispose de plus de 100 bases de données structurées et non structurées (PDF, HTML, CRM etc.), rendant la recherche d'informations fastidieuse et chronophage pour les utilisateurs. 🔍 Solution DataFab by Alteca : Un employé de la banque pose une question en langage naturel. Notre système comprend la question, la restreint au contexte des données de la banque, puis recherche l'information la plus pertinente ( vLLM, Vector Database - Agents : génération et exécution sécurisée de SQL multi-bases) et utilise l'IA générative Llama 3 pour générer une réponse fluide et naturelle. Le système récupère également des informations pertinentes depuis le CRM interne tout en gérant les droits d'accès pour garantir la sécurité des données. 📈 Bénéfices client : Réduction drastique du temps de recherche d'informations Amélioration de la précision et de la pertinence des réponses Optimisation des processus internes et meilleure conformité légale 🚀 Pourquoi choisir DataFab by Alteca ? Nos architectes et ingénieurs Data apportent une expertise sur toute la chaîne de traitement moderne de la donnée, assurant des solutions sécurisées et performantes en production pour nos clients. Vous avez un projet ? Contactez nos experts 👉 Daniel Stabile Frank Facundo Evelyne Su Benoit Lienard Nicolas Poullias Sophie Dourlent 🚀🤖 Tristan MULLER #DataScience #BigData #IA #MachineLearning #Banque #Innovation #DataEngineering #GCP #Postgres #vLLM #Langchain #Embedding
Identifiez-vous pour afficher ou ajouter un commentaire
-
💡 Quel est le rapport entre l'IA et un datawarehouse ? Le datawarehouse Databricks SQL est alimenté par l'IA - d'un assistant de codage IA à des optimisations de requêtes alimentées par l'IA. Pour en savoir plus, rejoignez-moi au Data Intelligence Day Paris le 23 avril pour suivre ma session "Le datawarehouse alimenté par l'IA avec Databricks SQL". ⭐ Réservez votre place ici : https://lnkd.in/eFnUkYB4 Profitez-en pour écouter mes collègues Anastasia Prokaieva qui vous éclairera sur la manière de "Construire et déployer des applications d'IA générative avec Databricks", ainsi que William Conti et El Ghali Benchekroun qui vous montreront comment "Simplifier la gouvernance des données et de l'IA à l'échelle avec Unity Catalog". #databricks #dbsql #paris #dataintelligenceday #genai #unitycatalog
Identifiez-vous pour afficher ou ajouter un commentaire
-
📊 𝐃𝐚𝐭𝐚 𝐒𝐜𝐢𝐞𝐧𝐭𝐢𝐬𝐭𝐬 𝐞𝐭 𝐩𝐚𝐬𝐬𝐢𝐨𝐧𝐧é𝐬 𝐝'𝐈𝐀, 𝐜𝐞 𝐜𝐚𝐫𝐫𝐨𝐮𝐬𝐞𝐥 𝐞𝐬𝐭 𝐩𝐨𝐮𝐫 𝐯𝐨𝐮𝐬 ! Vous vous êtes déjà demandé si votre choix de format de fichier pouvait transformer votre projet en succès éclatant ou en casse-tête interminable ? 🤔 Découvrez dans ce carrousel les secrets des formats les plus utilisés en Data Science et Intelligence Artificielle. Faites défiler pour savoir quand opter pour le CSV classique, le JSON polyvalent ou le Parquet taillé pour le Big Data. Ne laissez plus vos données vous jouer des tours, choisissez le bon format et boostez votre efficacité ! 🚀 #DataScience #IA #BigData #FormatsDeFichier #Efficacité #AnalyseDeDonnées
Identifiez-vous pour afficher ou ajouter un commentaire
Directeur des opérations : Chef de projet - Business Analyst - Responsable fonctionnel - Change manager - Test manager - Lean manager ⏩ Vos projets délivreront la valeur escomptée 💶 Vos équipes progresseront 📈
5 moisQuel est votre objectif avec ce site et que recherchez vous pour vous y aider ?