[{"content":"Oi gente. Hoje vou falar sobre Data Lake.\nData Lake Um Data Lake é um repositório que os dados de várias fontes diferentes são reunidos e armazenados em um sistema lógico. Ele permite armazenar todos os seus dados estruturados, semi-estruturados e não estruturados em qualquer escala. Você pode armazenar seus dados como estão, sem precisar primeiro estruturá-los.\nPor que o conceito de Data Lake foi criado? Antes do Data Lake, as organizações dependiam de banco de dados relacionais e data warehouses para gerenciar seus dados. O problema é que eles eram feitas principalmente para dados estruturados.\nCom o crescimento da internet, e principalmente pela chegada das redes sociais e do streaming de mídia, as organizações passaram a lidar com uma grande quantidade de dados não estruturados, como textos livres e imagens. Porém, os data warehouses e banco de dados relacionais não estavam preparados para lidar com esse aumento de dados, devido aos seus esquemas rígidos e aos custos de armazenamento relativamente altos.\nCom isso em vista, foi criado o conceito de Data Lake.\n","date":"2026-03-11T12:32:35Z","permalink":"https://dataengineervictor.com/posts/2026/03/11/data-lake/","title":"O que é um Data Lake?"},{"content":"Olá pessoal. No meu dia a dia já lidei com diversos tipos de dados e vou aproveitar para definir aqui alguns deles e usar como referência caso eu queira revisar.\nUma forma comum de classificar dados é de acordo com sua estrutura. Nessa classificação existem três tipos principais:\nDados estruturados Dados não estruturados Dados semi-estruturados É muito importante saber com que tipo de dados você está lidando. Cada um tem uma abordagem diferente. Abaixo vou colocar a definição deles.\nDados estruturados Dados estruturados possuem formato rígido e organizado em tabelas, com linhas e colunas bem definidas.\nid nome idade 1 Victor 24 2 Aline 28 Dados semi-estruturados Dados semi-estruturados não possuem tabelas rígidas, mas têm marcadores ou hierarquia que organizam parcialmente o conteúdo. Eles possuem uma estrutura (chaves e valores), mas não precisa seguir sempre o mesmo formato como uma tabela.\n{ \u0026#34;nome\u0026#34;: \u0026#34;Victor\u0026#34;, \u0026#34;idade\u0026#34;: 24, \u0026#34;cidade\u0026#34;: \u0026#34;Rio de Janeiro\u0026#34;, \u0026#34;compras\u0026#34;: [ {\u0026#34;produto\u0026#34;: \u0026#34;Celular\u0026#34;, \u0026#34;preco\u0026#34;: 2000}, {\u0026#34;produto\u0026#34;: \u0026#34;Fone\u0026#34;, \u0026#34;preco\u0026#34;: 200} ] } Dados não estruturados Dados não estruturados não possuem formato ou organização definida. Por exemplo:\nVídeos Imagens Áudios Posts de redes sociais Um email com o texto: \u0026ldquo;Olá, gostaria de saber o preço do notebook X e o prazo de entrega\nEsse texto não possui campos definidos como uma tabela.\n","date":"2026-03-10T12:35:44Z","permalink":"https://dataengineervictor.com/posts/2026/03/10/diferentes-tipos-de-dados/","title":"Diferença entre dados estruturados, não estruturados e semi-estruturados"},{"content":"Não existe um armazenamento \u0026ldquo;perfeito\u0026rdquo; em Engenharia de Dados, mas sim um armazenamento que se adeque melhor a cada caso.\nA escolha do local de armazenamento de dados depende de três fatores principais: tipo de dados, padrão de acesso e custo/desempenho esperado.\nCada característica do dado impõe restrições técnicas na escolha do sistema de armazenamento. Algumas perguntas principais para definir onde irá armazenar os dados:\nOs dados são estruturados, semi-estruturados ou não estruturados? O uso principal é transacional ou analítico? Qual o volume de dados? Qual é a frequência de escrita/leitura? Existe necessidade de latência baixa ou processamento em lote? Os dados são históricos ou operacionais em tempo real? Qual custo aceitável de armazenamento? ","date":"2026-03-09T18:05:00Z","permalink":"https://dataengineervictor.com/posts/2026/03/09/tipos-de-armazenamento-de-dados/","title":"Tipos de armazenamento de dados"},{"content":"No blog do dbt labs tem um post do David Tishgart dizendo sobre o Paradoxo de Jevons. Esse paradoxo diz que quando algo se torna mais eficiente ou barato, as pessoas tendem a usar mais, o que pode aumentar o consumo total.\nEle diz que eles observam esse padrão no Dbt Labs. Também diz que muitas vezes rodam jobs que não alteram o modelo em nada, e mesmo assim continuam rodando.\nNo posts,\n","date":"0001-01-01T00:00:00Z","permalink":"https://dataengineervictor.com/posts/anota%C3%A7%C3%B5es_estudo_dbt_11/03/2026/","title":""}]
