Oi gente. Hoje vou falar sobre Data Lake.
Data Lake
Um Data Lake é um repositório que os dados de várias fontes diferentes são reunidos e armazenados em um sistema lógico. Ele permite armazenar todos os seus dados estruturados, semi-estruturados e não estruturados em qualquer escala. Você pode armazenar seus dados como estão, sem precisar primeiro estruturá-los.
Por que o conceito de Data Lake foi criado?
Antes do Data Lake, as organizações dependiam de banco de dados relacionais e data warehouses para gerenciar seus dados. O problema é que eles eram feitas principalmente para dados estruturados.
Com o crescimento da internet, e principalmente pela chegada das redes sociais e do streaming de mídia, as organizações passaram a lidar com uma grande quantidade de dados não estruturados, como textos livres e imagens. Porém, os data warehouses e banco de dados relacionais não estavam preparados para lidar com esse aumento de dados, devido aos seus esquemas rígidos e aos custos de armazenamento relativamente altos.
Com isso em vista, foi criado o conceito de Data Lake.