Data Lake
Data Lake — метод хранения данных системой или репозиторием в сыром (неструктурированном) или частично обработанном виде.
- большой срок хранения данных
- есть возможность их преобразования
- поддерживаются разные схемы чтения данных
Как хранятся данные
Сырой (Raw) слой
- загружаются без предварительной обработки
Обработанный (Processed) слой
- структурируются, очищаются, трансформируются
- форматы: табличные, агрегированные данные.
Аналитический (Curated) слой
- оптимизированы для аналитики и бизнес-отчетов, например, формируются OLAP-кубы или специализированные наборы данных