ETL - Extract, Transform, Load - é o processo de coletar dados de fontes de dados brutas e transformar esses dados em um tipo comum. Esses novos dados são carregados em um local final para serem disponibilizados para análise e inspeção analíticas. Em ambientes modernos baseados na nuvem, geralmente nos referimos a esse processo como ELT (Extract, Load, Transform). As etapas são simplesmente executadas em uma ordem diferente, mas o resultado é o mesmo.

Extração de dados

A fase de extração desse processo é, sem dúvida, a mais importante de todas as fases. Os dados necessários para a maioria das transformações de data analytics provavelmente virão de vários locais e serão de vários tipos, como logs de transações, bancos de dados de produtos, fontes de dados públicas ou fluxos de aplicativos.

Há quatro áreas principais para as quais você deve planejar.

  1. Você deve identificar onde todos os dados de origem residem. Esses dados podem ser armazenados localmente pela sua empresa, mas também podem incluir dados encontrados on-line.
  2. Você deve planejar cuidadosamente quando a extração ocorrerá devido ao possível impacto do processo de cópia no sistema de origem.
  3. Você deve planejar onde os dados serão armazenados durante o processamento. Isso geralmente é chamado de local de preparação.
  4. Você deve planejar afrequência com que a extração deve ser repetida.

Depois de determinar de onde os dados estão vindo e o que deseja, você extrairá essas informações e as colocará em um local de preparação.

Transformação de dados

Transformar seus dados em um formato uniforme e consultável é realmente o centro do processo de ETL. Essa fase envolve o uso de uma série de regras e algoritmos para inserir os dados em sua forma final. A limpeza de dados também ocorre durante essa parte do processo.

As transformações podem ser básicas, como a limpeza de dados para atualizar formatos ou realizar substituições de dados. Isso pode ser a substituição de valores NULL por zero ou a substituição da palavra feminina pela letra F. Essas alterações aparentemente pequenas podem ter um grande impacto sobre a utilidade desses dados para analistas posteriormente, no processo de visualização.

As transformações também podem ser mais avançadas, incluindo a aplicação de regras de negócios aos dados para calcular novos valores. Filtragem, operações de junção complexas, agregação de linhas, divisão de colunas e validação de dados são tipos muito comuns de transformações aplicadas nessa fase.

Os serviços de ETL podem até mesmo fazer uma transformação entre diferentes tipos de fontes de dados, como transformar dados não relacionais em um formato de dados relacional ou levar dados relacionais e transformá-los em arquivos JSON a serem armazenados em um data lake.

Alguns dados já podem estar em seu estado final e podem passar para a próxima fase.

Carregando dados

A fase final do processo de ETL é escolher um local para carregar os dados recém-transformados. As etapas de planejamento realizadas na fase de transformação ditam a forma que o armazenamento de dados final deve assumir. Isso pode ser um banco de dados, um data warehouse ou um data lake. Assim que o processo for concluído com êxito, os dados nesse local estarão prontos para serem analisados.

Resumo

Então, por que percorremos o processo de ETL?

  1. Para garantir que os dados tenham a precisão, a precisão e a profundidade necessárias
  2. para reunir dados de diferentes fontes e obter uma visão completa
  3. para criar conjuntos de dados específicos para responder às principais perguntas comerciais