Стратегия ETL

Гость7 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
03.11.2018

Есть много данных, необходимо сделать много работы, чтобы подготовить их.

Данные должны быть собраны, очищены и отформатированы правильно и сохранены в одном месте для анализа. То есть нужно создать хранилище данных .

Существует следующие источники данных га(из него тянуться ивенты контактов, сессии, юзеры), бд (много их(каталог, чаты, модерация, юзеры, пеймент))

  Google analytics

  Posrtgres

  BigQuery (без агригирования)

Хотя данные доступны в других местах, на самом деле это не полезно для анализа до тех пор, пока не будет сделано хранилище.

В этоге нужна Многомерная база данных , которая могла содержать всю информацию в одной и той же базе данных. 

Получение данных для анализа

Сбор, подготовка и хранение данных в хранилище данных осуществляется с помощью процесса, называемого ETL. 

  • Извлечение данных из внутренних и внешних источников
  • Преобразовать данные в стандартный формат - например, конвертируя даты в один и тот же формат
  • Загрузка данных в хранилище данных
Есть варинты перехода на 2 инструмента визуализации и нужно определиться с инструментом для ETL процесса, то есть полностью проконсультировать с таким процессом http://take.ms/t7MkG . 

Необходимо внедрить преобразование данных с этих источников для легкого изучения в Tableau или zeppelin.apache.org или возможно есть другие варианты 

Необходимо структурировать данные для оптимальной визуализации и импортирования Tableau или zeppelin.