Стратегия ETL
Есть много данных, необходимо сделать много работы, чтобы подготовить их.
Данные должны быть собраны, очищены и отформатированы правильно и сохранены в одном месте для анализа. То есть нужно создать хранилище данных .
Существует следующие источники данных га(из него тянуться ивенты контактов, сессии, юзеры), бд (много их(каталог, чаты, модерация, юзеры, пеймент))
Google analytics
Posrtgres
BigQuery (без агригирования)
Хотя данные доступны в других местах, на самом деле это не полезно для анализа до тех пор, пока не будет сделано хранилище.
В этоге нужна Многомерная база данных , которая могла содержать всю информацию в одной и той же базе данных.
Получение данных для анализа
Сбор, подготовка и хранение данных в хранилище данных осуществляется с помощью процесса, называемого ETL.
- Извлечение данных из внутренних и внешних источников
- Преобразовать данные в стандартный формат - например, конвертируя даты в один и тот же формат
- Загрузка данных в хранилище данных
Необходимо внедрить преобразование данных с этих источников для легкого изучения в Tableau или zeppelin.apache.org или возможно есть другие варианты
Необходимо структурировать данные для оптимальной визуализации и импортирования Tableau или zeppelin.