Autor: Airton Lira Junior

Data Architect | 3x AWS | 1x Azure | 4x Databricks | Python | Golang | Machine Learning | AI Engineer

E aí, pessoal! Estou super animado para compartilhar minha experiência construindo uma arquitetura Data Vault usando tecnologias modernas de Big Data. Se você, assim como eu, está querendo entender como implementar Data Vault na prática (e não apenas na teoria), este artigo é para você! Vamos mergulhar nesse projeto incrível que combina Apache Spark, Delta Lake, Minio e Docker. É coloquei o minIO para deixar diferenciado a coisa e como foi difícil configurar no jupyter notebook para o spark session afff, mas deu bom 😎 O que vamos explorar? Bora lá? Introdução: Data Vault e o Problema que Resolvemos Antes…

Leia mais

Hoje resolvi relembrar alguns conceitos de machine learning e entre eles a parte de vetorização de categorias para ter um dataset mais apto para deep learning (Redes neurais). Portanto neste artigo vou demonstrar de forma pura como utilizar a lib do spark de machine learning e criar o experimento ou seja a pipeline no MLFlow dentro do Databricks. Escolhendo um dataset adequado: Para este artigo vou utilizar um dataset publico do Kaggle chamado parking transaction que é um dataset em csv que contém registros de transações de estacionamento de várias fontes, incluindo medidores de estacionamento e aplicativos de pagamento móveis.…

Leia mais

Nas minhas aventuras de estudo na linguagem Go me deparei com a vontade de trabalhar com micro serviços com a linguagem Go visto que é uma linguagem muito divertida,simples e performática. Ao longo dos estudos conheci o software aberto Prometheus que gerencia muito bem a parte de métricas e gerenciamento de alertas no cenário de micro serviços, trabalhei um pouco também com o RabbitMQ nos diversos tipos de exchange para aprender na prática o comportamento de cada uma e a utilização no cenário de micro serviços para comunicação entre os mesmos através de um sistema de mensageria. Pensei também em…

Leia mais

Neste artigo vou ensinar como se conectar a um cluster serverless do SQL Warehouse do Databricks utilizando as credenciais de um SP – Service Principal do Databricks. Atualmente, não encontrei nenhum tutorial fácil de como fazer isso e tive que fazer um descompile do arquivo JAR do driver de conexão do Databricks para entender se é possível ou não, visto que, na documentação oficial do Databricks, não fica claro se utilizando o clientId, clientSecret e token é possível se conectar pelo DBeaver. O caminho mais direto e fácil foi via PAT – Personal Access Token. Portanto, agora vou demonstrar como…

Leia mais