Posts on Dataengineervictor

O que é um Data Lake?

Wed, 11 Mar 2026 12:32:35 +0000

Oi gente. Hoje vou falar sobre Data Lake.

Data Lake

Um Data Lake é um repositório que os dados de várias fontes diferentes são reunidos e armazenados em um sistema lógico. Ele permite armazenar todos os seus dados estruturados, semi-estruturados e não estruturados em qualquer escala. Você pode armazenar seus dados como estão, sem precisar primeiro estruturá-los.

Por que o conceito de Data Lake foi criado?

Antes do Data Lake, as organizações dependiam de banco de dados relacionais e data warehouses para gerenciar seus dados. O problema é que eles eram feitas principalmente para dados estruturados.

Com o crescimento da internet, e principalmente pela chegada das redes sociais e do streaming de mídia, as organizações passaram a lidar com uma grande quantidade de dados não estruturados, como textos livres e imagens. Porém, os data warehouses e banco de dados relacionais não estavam preparados para lidar com esse aumento de dados, devido aos seus esquemas rígidos e aos custos de armazenamento relativamente altos.

Com isso em vista, foi criado o conceito de Data Lake.

Diferença entre dados estruturados, não estruturados e semi-estruturados

Tue, 10 Mar 2026 12:35:44 +0000

Olá pessoal. No meu dia a dia já lidei com diversos tipos de dados e vou aproveitar para definir aqui alguns deles e usar como referência caso eu queira revisar.

Uma forma comum de classificar dados é de acordo com sua estrutura. Nessa classificação existem três tipos principais:

Dados estruturados
Dados não estruturados
Dados semi-estruturados

É muito importante saber com que tipo de dados você está lidando. Cada um tem uma abordagem diferente. Abaixo vou colocar a definição deles.

Dados estruturados

Dados estruturados possuem formato rígido e organizado em tabelas, com linhas e colunas bem definidas.

id	nome	idade
1	Victor	24
2	Aline	28

Dados semi-estruturados

Dados semi-estruturados não possuem tabelas rígidas, mas têm marcadores ou hierarquia que organizam parcialmente o conteúdo. Eles possuem uma estrutura (chaves e valores), mas não precisa seguir sempre o mesmo formato como uma tabela.

{
  "nome": "Victor",
  "idade": 24,
  "cidade": "Rio de Janeiro",
  "compras": [
    {"produto": "Celular", "preco": 2000},
    {"produto": "Fone", "preco": 200}
  ]
}

Dados não estruturados

Dados não estruturados não possuem formato ou organização definida. Por exemplo:

Vídeos
Imagens
Áudios
Posts de redes sociais

Um email com o texto: “Olá, gostaria de saber o preço do notebook X e o prazo de entrega

Esse texto não possui campos definidos como uma tabela.

Tipos de armazenamento de dados

Mon, 09 Mar 2026 18:05:00 +0000

Não existe um armazenamento “perfeito” em Engenharia de Dados, mas sim um armazenamento que se adeque melhor a cada caso.

A escolha do local de armazenamento de dados depende de três fatores principais: tipo de dados, padrão de acesso e custo/desempenho esperado.

Cada característica do dado impõe restrições técnicas na escolha do sistema de armazenamento. Algumas perguntas principais para definir onde irá armazenar os dados:

Os dados são estruturados, semi-estruturados ou não estruturados?
O uso principal é transacional ou analítico?
Qual o volume de dados?
Qual é a frequência de escrita/leitura?
Existe necessidade de latência baixa ou processamento em lote?
Os dados são históricos ou operacionais em tempo real?
Qual custo aceitável de armazenamento?

Mon, 01 Jan 0001 00:00:00 +0000

No blog do dbt labs tem um post do David Tishgart dizendo sobre o Paradoxo de Jevons. Esse paradoxo diz que quando algo se torna mais eficiente ou barato, as pessoas tendem a usar mais, o que pode aumentar o consumo total.

Ele diz que eles observam esse padrão no Dbt Labs. Também diz que muitas vezes rodam jobs que não alteram o modelo em nada, e mesmo assim continuam rodando.

No posts,