7 Passos para Implementação do Databricks Unity Catalog (RESUMIDO) Para implementar o Databricks Unity Catalog de maneira eficaz, é importante entender sua arquitetura, capacidades e como ele se integra aos seus fluxos de trabalho existentes. Abaixo, descrevo um guia detalhado para essa implementação. 1. Verifique se sua conta Databricks possui permissões administrativas necessárias para configurar o Unity Catalog. Isso inclui permissões adequadas para gerenciar recursos de rede e segurança no ambiente de nuvem escolhido (Azure, AWS ou Google Cloud). 2. Crie um metastore unificado para armazenar metadados centralizados. Este metastore servirá como a base para a governança de dados em todos os workspaces Databricks. Ao criar o metastore, você define políticas de IAM para controlar quem pode criar, modificar ou visualizar os ativos de dados. 3. Catalogar e registrar dados no metastore. Identifique e registre todas as tabelas, views, streams, e outros ativos de dados que precisarão ser geridos. Inclua metadados detalhados como descrições, tags de classificação e informações de proveniência para facilitar a governança e auditoria. 4. Configure listas de controle de acesso (ACLs) detalhadas para gerenciar permissões. Defina políticas de acesso granular que permitam controlar quem pode acessar catálogos, esquemas, tabelas, e até colunas específicas. Isso garante que apenas usuários autorizados possam acessar dados sensíveis. 5. Habilite logs de auditoria para monitoramento contínuo. Configure o monitoramento de todas as operações de leitura e escrita para garantir que o acesso aos dados esteja em conformidade com as políticas de segurança. Isso inclui o rastreamento de atividades suspeitas ou acessos não autorizados. 6. Integre o Unity Catalog com suas ferramentas de Business Intelligence (BI) e Data Science. Garanta que ferramentas como Power BI, Tableau, e frameworks de Data Science como Spark possam acessar dados de forma segura e governada. Verifique que as conexões estão seguras e que as permissões de acesso são apropriadas para cada ferramenta. 7. Configure o Delta Sharing para compartilhamento seguro de dados. Utilize o Delta Sharing para compartilhar dados de forma segura com parceiros externos ou outras unidades de negócio sem mover fisicamente os dados. Certifique-se de que as permissões de compartilhamento respeitam as políticas de segurança e conformidade. A implementação do Databricks Unity Catalog requer uma abordagem detalhada e estratégica, mas os benefícios em termos de governança, segurança e eficiência operacional são significativos. Esse passo a passo visa fornecer uma visão técnica e prática para que você possa explorar o potencial completo dessa ferramenta em sua organização. #unitcatalog #databricks #datapilines #datagovernance
Publicação de Rodrigo Leal Gimenes
Publicações mais relevantes
-
Fala pessoal! Você sabia que no #Databricks, além de poder virtualizar uma tabela específica de um banco de dados, você também pode virtualizar o banco de dados inteiro, e fazer toda a governança e controle de acesso via #Unity #Catalog? Sim! Você pode, o nome desse recurso é Lakehouse Federation. Com seu banco de dados virtualizado dentro do #Databricks você pode, de maneira simples, agregar e extrair valor de seus ativos de dados muito mais rápido, e ainda pode fazer uma mescla dos dados virtualizados com os dados já existentes em seu #data #lakehouse. Para tanto, é necessário resolver as seguintes questões: 1 – Conectar o #Azure #Databricks à sua rede local 2 – Workspace habilitado para o Unity Catalog 3 – Criar a conexão com o banco de dados on-prem 4 – Criar um catálogo estrangeiro 5 – Habilitar a visibilidade do catálogo estrangeiro para todos os workspaces ou para um Workspace específico e ainda aplicar CLS e RLS. Pronto, agora você sabe como virtualizar um banco de dados no #Databricks! Com acesso aos novos dados via virtualização, você pode; – Fazer pequenas análises Ad hoc muito mais rápida – Prova de conceito antes de sair desenvolvendo todo o pipeline de ingestão/ELT – Carregar os dados de forma incremental D -1 ou D -0* Disclaimer: É importante você entender que na virtualização de dados as consultas serão executadas diretamente no banco de dados on-prem, portanto se for um banco de dados operacional, esta consulta irá concorrer com todos os outros processos de escrita e leitura do banco. O que isso significa? Você terá que fazer um planejamento para identificar os ‘pain points’ de uma virtualização de acordo com as suas necessidades e escolher o melhor momento para efetuar as consultas a partir do #Databricks. Espero que gostem! \0/\o #cloud #dataengineering #dataanalytic
Entre para ver ou adicionar um comentário
-
Aos iniciados em Delta Lake (e databricks) Quando usar (ou não!) autoloader nos seus pipelines Eu sei que seu Lakehouse tem múltiplas fontes E por vezes cada uma das tabelas e endpoins de APIs funcionam de forma diferente Eis o que considerar a respeito do autoloader: Autoloader (cloudfiles) é uma ferramenta disponível no spark structure streaming (pode ser usado em batch, sem crise) para carga de dados incremental. Apontando para um diretório, ele identifica os arquivos novos desde a ultima execução, aplica os tratamentos e cargas que programados, e registra em um checkpoint os arquivos processados (por isso incremental). O uso dessa solução deixa seus pipelines idempotentes sem muito esforço, o que é ótimo! Quando usar? - landing zone to bronze é quase sempre boa pedida, já que arquivos podem ser ali ingeridos por diferentes ferramentas e em arquiteturas comuns nunca são atualizados - para outras camadas quando a origem for apenas passível de inserts (append only) Quando não usar? - Origem passível de updates (carregadas em modo upsert com merge, por exemplo) - Pipelines que por alguma razão espera reprocessamentos frequentes. Sim, se algo der errado vai precisar deletar o checkpoint e processar tudo do zero 🤦♂️ Tem usado autoloader na tua arquitetura atual? Estou pensando em escrever um artigo mais detalhado com sugestões de como escolher a melhor abordagem para processamento em ambiente spark. O que achas?
Entre para ver ou adicionar um comentário
-
A imagem traz um resumo dos principais anúncios feitos pela Databricks, a maioria nos últimos dias. A missão da empresa é democratizar dados e IA, e eles estão mostrando que isto é para valer. A aquisição da Tabular (now part of Databricks) demonstra o compromisso deles entorno da interoperabilidade entre o Parquet e o Iceberg para armazenamento de dados. A disponibilização do Unity Catalog como um projeto de software aberto vai na mesma direção, democratizando a governança de dados. A plataforma deles facilita também a conexão com diferentes modelos de IA, fazendo isto tudo com uma nova arquitetura servless (de julho em diante), com o aumento de performance e diminuição de custos! Muita informação e aprendizado esta semana! Na próxima tem mais! #DataIASummit
Entre para ver ou adicionar um comentário
-
💃 Ei, mulher! 🌟 Se você trabalha ou quer trabalhar com dados, deixa eu te apresentar a Plataforma incrível da Databricks e Unity Catalog! 🔍 O Databricks é uma plataforma unificada de dados e IA, projetada para simplificar desde o processamento de grandes volumes de dados até a criação de modelos de Machine Learning. Agora, imagine governar todos esses dados de forma segura e organizada. É aí que entra o Unity Catalog, o sistema de governança que traz segurança, catalogação e... o meu recurso favorito: Data Lineage! 💡 O que o Data Lineage tem bom? ➡️ Visualização de ponta a ponta: Você acompanha o ciclo de vida dos dados desde arquivos brutos no armazenamento até as tabelas de bronze, prata e ouro e até modelos de ML e dashboards. Isso transforma a auditoria e a regulamentação em tarefas muito mais simples! ➡️ Nível de coluna: Dá para ver exatamente do que são feitas as métricas de negócios, sem precisar “caçar” código manualmente linha por linha. ➡️ Contexto completo: Linhagem cruzando workspaces conectados a um Metastore, mostrando quem está usando os dados downstream. ➡️ Ciclo de vida completo: Não só dos dados, mas também do código (sim, de onde ele foi executado: notebooks, jobs, etc.). ➡️ Sem esforço manual: Tudo funciona de forma automática, gerado pelos metadados. A linhagem de dados no Unity Catalog não só economiza tempo, como também eleva o nível da governança de dados. O que você consegue fazer na versão community? ➡️Criação e execução de notebooks para processamento de dados. ➡️Experimentação com clusters Spark para tarefas de ETL e análises. ➡️Acesso ao Unity Catalog com recursos básicos de catalogação e governança. ⚠️ O Data Lineage dentro do Unity Catalog pode ter algumas limitações na versão gratuita, como menos funcionalidades avançadas ou restrições de escalabilidade. Mas é uma ótima maneira de entender a plataforma, praticar conceitos de governança de dados e se preparar para ambientes corporativos. 💬 Já conhecia esse recurso? Faça sua conta na Databricks , a versão community é gratuita (com limitações), e comece a explorar alguns desses recursos e a experimentar a governança e a linhagem de dados na prática! 🎯 🔷 Link Databricks community: https://lnkd.in/d_pkUNDA #GovernançaDeDados #DataLineage #Databricks #UnityCatalog
Entre para ver ou adicionar um comentário
-
Daqueles artigos que escrevo pra guardar pro futuro pois sei que vou precisar denovo. Criar PAT (personal access tokens) no Databricks é simples, via UI e tal. Mas é pra service principals? Esse post é um roteiro pra gerar o token de service principal que não dá pra fazer via UI (tanto no nível de account/Unity Catalog como para o nível de Workspace), criando inicialmente uma secret oauth2 e depois rodando um Curl via API. Tudo isso pra não ficar aquele seu user pessoal na aplicação! 😂 Espero que te ajude! #Databricks #serviceprincipal #api #token #unitycatalog #workspace #accesscontrol
Entre para ver ou adicionar um comentário
-
Estamos no 4º dia do re:Invent 2024 e tivemos grandes anúncios e atualizações de várias soluções da AWS! Aqui estão os destaques: 🔹 Amazon Bedrock: Novos modelos chegaram para otimizar o desenvolvimento de software, como o modelo da Pullside para ajudar na geração de código, o Stable Diffusion 3.5 da Stability AI para geração de imagem e vídeo, e o inovador modelo da Luma para criação de vídeos com treinamento em grande escala usando o SageMaker HyperPod. 🔹 Amazon SageMaker: O novo SageMaker Unified Studio integra dados e pipeline de ML em uma solução única, enquanto o SageMaker AI continua com os recursos avançados de Machine Learning. 🔹 Trainium 2: Mais potência e desempenho para Machine Learning, com 28 petaflops de poder computacional, e o Training 3 já em desenvolvimento! 🔹 AllMineEnglish: Agora, é possível coletar dados estruturados e não estruturados em um único lugar, oferecendo uma solução centralizada para quem precisa de dados completos. 🔹 Amazon Q: O Q Developer agora gera documentação automaticamente com o comando “/doc”, criando README, diagramas e workflows de forma simples. 🔹 DSQL: Chegou para revolucionar o Aurora! 100% serverless, multi-regional, com endpoints integrados para leitura e escrita. 🔹 AWS S3: Avanços significativos com o S3 Tables, que suporta nativamente o Apache Iceberg e permite a criação de tabelas de dados estruturados em Apache Parquet. Além disso, o novo S3 Metadata facilita a interação com metadados de objetos no S3, tornando os fluxos de trabalho mais eficientes e oferecendo insights mais profundos sobre os dados. Essas são apenas algumas das inovações que estamos acompanhando no evento. Qual você mais gostou? #AWS #reinvent2024
Entre para ver ou adicionar um comentário
-
Unity Catalog No mundo do Data Lakehouse, garantir segurança e governança dos dados sempre foi um desafio. A chegada do Unity Catalog transformou esse cenário, oferecendo um catálogo unificado para governança simplificada dentro do Databricks. Ele oferece uma camada centralizada para gerenciar dados em ambientes multi-cloud, facilitando o controle de permissões e a organização das informações. Além disso, ele disponibiliza nativamente ferramentas para auditoria e linhagem de dados, que são essenciais para garantir a governança adequada. Principais benefícios do Unity Catalog: - Gerenciamento centralizado: Oferece um único ponto para administrar políticas de acesso a dados, aplicáveis a todos os workspaces da organização. - Governança unificada para dados e IA: Permite que os administradores concedam permissões em tabelas (catálogos, schemas e tabelas), ativos de IA (funções, modelos e bancos vetoriais) e dados não estruturados (áudio, texto, vídeos e imagens), garantindo a segurança dos objetos de forma unificada. - Descoberta de dados: Permite etiquetar e documentar os objetos de dados, possibilitando que os consumidores dos dados encontrem rapidamente as informações. - Linhagem de dados: Rastreia todo o ciclo de vida dos objetos de dados, oferecendo visibilidade completa e transparência sobre como os dados são criados e utilizados ao longo do tempo. - Auditoria: Captura logs detalhados de todas as interações com os dados, registrando-as de forma abrangente para facilitar auditorias e garantir conformidade regulatória. - Interoperabilidade entre formatos: Oferece suporte ao Delta Lake, Apache Iceberg via UniForm, Parquet, CSV, JSON, entre outros formatos. Com o Unity Catalog, as organizações podem focar mais em gerar insights valiosos e se preocupar menos com a complexidade da gestão e segurança dos dados. Saiba mais sobre o Unity Catalog: - https://lnkd.in/dG89ZvBQ - https://lnkd.in/dekq_HFq - https://lnkd.in/dXsAQtXT #UnityCatalog #DataGovernance #DataEngineering #Databricks #BigData
Entre para ver ou adicionar um comentário
-
Hoje participei do Webinar da Databricks, com o tema: "Delta Lake Uniform: Unificando os Formatos de Tabelas Iceberg, Hudi, e Delta Lake". O Webinar foi conduzido pelos mestres: Rodrigo Oliveira, Luiz C., Flávio Malavazi, onde foi explicado de forma conceitual o funcionamento do Uniform e apresentando na pratica a solução. Segue o resumo📝: O Delta Universal Format ('Uniform') é uma solução que basicamente unifica e acessa as tabelas Delta no lakehouse. Ele permite a integração dos dados, independentemente de seus formatos ou tipos, sendo aplicável a todas as cargas de trabalho de análise e inteligência artificial, mesmo quando utilizam diferentes formatos de dados. Os principais benefícios do Delta Lake UniForm incluem: ✅ Transferência entre formatos de dados abertos: O UniForm promove a utilização de diferentes formatos de data lake, como Delta Lake, Apache Iceberg e Apache Hudi, assegurando uma maior interoperabilidade entre esses sistemas sem a necessidade de conversões complicadas ou reescritas de dados no DataBricks. ✅ Unificação do ecossistema de conectores: Ele torna a integração mais fácil ao permitir que um conector criado para Delta Lake seja automaticamente compatível com Iceberg e Hudi. Isso diminui a necessidade de desenvolver diversos conectores. ✅ Desempenho aprimorado: O UniForm incorpora otimizações que garantem alto desempenho em consultas e gravação de dados, mesmo em cargas de trabalho de grande escala. #databricks #cloud #dataengineering
Entre para ver ou adicionar um comentário
-
Esta semana, aprofundei meus conhecimentos sobre LangFlow por meio de dois vídeos bem completos e resumidos (do jeito que eu gosto), que abordaram de forma prática a usabilidade e o potencial dessa ferramenta ao utilizar os principais modelos LLMs do mercado. Buscando sempre aplicar esses conhecimentos de forma prática, utilizei o LangFlow para desenvolver uma RAG (técnica que combina recuperação de informações em uma base de dados com a geração de texto a partir dessas referências), utilizando a documentação do AWS QuickSight (ferramenta que venho utilizando no meu dia a dia), para entender melhor algumas de suas funcionalidades. Foi um processo relativamente simples, considerando todo o potencial que ainda pode ser explorado. Posso dizer que a parte mais demorada desse desenvolvimento foi obter as KEYs de acesso aos modelos LLM e Embeddings... 😂 Créditos: Canal Samuel Matiolo: https://lnkd.in/dxGmhvhj Canal Inteligência Mil Grau: https://lnkd.in/dQvbJMSn #LangFlow #OpenAI #LLM #InteligênciaArtificial #AWSQuickSight #Automação
Entre para ver ou adicionar um comentário
-
Neste vídeo, apresento o uso do Azure Storage para gerenciar imagens do backdrop das bandas em um aplicativo de streaming, parte do meu projeto na pós-graduação em Engenharia de Software do MIT pela Infnet. Durante a implementação, fiz o upload das imagens convertendo-as para Base64 e utilizando o método POST para o cadastro de bandas. Ativei breakpoints para inspecionar as requisições e o objeto criado, permitindo uma análise detalhada do processo. Dentro da classe BandService, utilizei o método UploadImage da classe AzureStorageAccount.cs, que envolve as seguintes etapas: Conversão e Validação: A imagem é convertida para Base64 e as credenciais de acesso ao Azure são validadas, garantindo segurança no upload. Criação da URL Blob: Um método gera a URL do Blob, assegurando que o accountName configurado no código corresponda ao que está na Azure Storage Account. Upload Assíncrono: Um novo BlobServiceClient é criado, o nome do container é verificado e o arquivo é carregado de forma assíncrona usando o método UploadAsync. Após a execução, o método retorna a URL da imagem, que é vinculada ao objeto da banda armazenado no Cosmos DB, um banco de dados NoSQL. No vídeo, demonstro como visualizar a imagem hospedada no Azure e como o link está associado ao registro da banda no banco de dados. Esse processo ilustra a integração de serviços em nuvem na construção de aplicativos modernos e a eficiência que o Azure proporciona no gerenciamento de arquivos. #Azure #Storage #CosmosDB #SoftwareEngineering
Entre para ver ou adicionar um comentário
Mais deste autor
-
Governança de Dados para Executivos: 5 passos para estruturar sua empresa 🚀
Rodrigo Leal Gimenes 2 sem -
Como Criar um Agente Investigador de Mercado Detalhado
Rodrigo Leal Gimenes 8 m -
Como para Transformar Seu Processo de Vendas com Inteligência Artificial e Engenharia de Prompts?
Rodrigo Leal Gimenes 8 m