Autor: Airton Lira Junior

Data Architect | 3x AWS | 1x Azure | 4x Databricks | Python | Golang | Machine Learning | AI Engineer

Escrevi um artigo destrinchando tudo sobre prompt injection, desde as tecnicas mais manjadas tipo “Ignore Previous Instructions” ate os ataques multi-turn que a galera da Palo Alto documentou e que passam batido por quase todo guardrail. Roleplay com DAN? Encoding em Base64 e Leetspeak pra driblar filtro? Ta tudo la, com taxa de sucesso baseada em pesquisa academica real.

Leia mais

Aprenda a criar um pipeline de dados completo no Google Cloud Platform utilizando BigQuery e DataProc. Neste guia prático, você vai configurar sua conta GCP, criar tabelas otimizadas com particionamento, processar dados com PySpark e implementar ETL de forma eficiente. Tutorial hands-on para engenheiros de dados que querem dominar as ferramentas de Big Data do Google.

Leia mais

A Nova Fronteira da Análise Digital Imagine um mundo onde cada website que surge na internet é automaticamente comparado com milhões de outros sites, identificando não apenas suas semelhanças visuais, mas também seus padrões de comportamento, estrutura de conteúdo e performance. Essa realidade já existe, e está transformando como entendemos os ciclos de inovação digital. O Que São Ciclos de Similaridade Web? Os ciclos de similaridade web representam períodos onde múltiplos websites seguem padrões similares de design, funcionalidade ou estratégia de conteúdo. Tradicionalmente, identificar esses padrões exigia análise manual extensiva e muito tempo. Hoje, através da combinação de tecnologias como…

Leia mais

Ao longo dos meus estudos de analise de dados, previsões, Machine Learning, Deep Learning e estatísticas eu percebi uma complexidade maior no entendimento sobre séries temporais, seja pela grande necessidade de entender uma série de outros conceitos que não estão relacionados aos modelos de previsão numérica e classificação, seja pela falta de material em português com uma abordagem bem teórica sobre séries temporais e seus modelos de forecasting. Portanto neste artigo eu busco abordar uma sequencia de conceitos básicos sobre séries temporais que ajudam não só a entender melhor os gráficos do seus dados como também a entender como aplicar…

Leia mais

Todo engenheiro de dados (Data Engineer) e desenvolver de software (Software Engineer) está ou vai estar muito “Harmonizado” e na minha visão deve estar engajado com o desenvolvimento de soluções de AI. Ok tudo bem, neste artigo vou mirar mais no meu publico que são os Data Analytics Engineer, Data Architech, Data Engineer, DBRE etc.. mas você desenvolvedor vai precisar saber disso também, mas por que então vou escrever esse artigo mais para o publico de Data, bom por que aqui no Brasil o Databricks é massivamente utilizado para questões de Data e não desenvolvimento de software, contudo o conceito…

Leia mais

Opa, pessoal! Espero que todos estejam bem. Estou iniciando aqui uma série de artigos que vou escrever desde o mais básico até o mais avançado sobre o mundo da Inteligência Artificial (AI). Atualmente, no momento em que escrevo este artigo, não atuo mais diretamente com AI, mas é o meu PDI (Plano de Desenvolvimento Individual), ou seja, algo que estudo porque sei que será o futuro. Portanto, neste artigo, vou te ensinar a desenvolver não apenas um chatbot simples (pois isso já não vale mais nada no mercado), mas sim três agentes de AI utilizando o framework LangChain e Python.…

Leia mais

E aí, pessoal! Estou super animado para compartilhar minha experiência construindo uma arquitetura Data Vault usando tecnologias modernas de Big Data. Se você, assim como eu, está querendo entender como implementar Data Vault na prática (e não apenas na teoria), este artigo é para você! Vamos mergulhar nesse projeto incrível que combina Apache Spark, Delta Lake, Minio e Docker. É coloquei o minIO para deixar diferenciado a coisa e como foi difícil configurar no jupyter notebook para o spark session afff, mas deu bom 😎 O que vamos explorar? Bora lá? Introdução: Data Vault e o Problema que Resolvemos Antes…

Leia mais

Hoje resolvi relembrar alguns conceitos de machine learning e entre eles a parte de vetorização de categorias para ter um dataset mais apto para deep learning (Redes neurais). Portanto neste artigo vou demonstrar de forma pura como utilizar a lib do spark de machine learning e criar o experimento ou seja a pipeline no MLFlow dentro do Databricks. Escolhendo um dataset adequado: Para este artigo vou utilizar um dataset publico do Kaggle chamado parking transaction que é um dataset em csv que contém registros de transações de estacionamento de várias fontes, incluindo medidores de estacionamento e aplicativos de pagamento móveis.…

Leia mais