Импорт базы данных из файлов

Сэм3 года в сервисе
Данные заказчика будут вам доступны после подачи заявки
19.03.2022

Задача:

Написать парсер, который рекурсивно обойдет все файлы, которые хранятся на диске, разберёт данные и положит их в PostgreSQL.

Количество записей: ±2 млн

Объем данных: ±150 Gb

База данных: PostgreSQL (будет хоститься на DigitalOcean)

Требования:

- Ведение лога, чтобы можно было отловить ошибки и быть уверенным в целостности данных.

- Высокая скорость импорта. Нужно выбрать оптимальный способ для импорта данных в PostgreSQL. Желательная скорость 2-5 часа. Допустимая скорость 12 часов.

Структура базы данных:

- URL

- Title страницы

- Категория (laptops/device/hwid)

- Тип устройства (sound/video/ etc…) – только для категории device

- Бренд производителя (Acer/Asus/Nvidia/Intel/ etc…)

- Остальной HTML текст

- Количество символов в поле “Остальной HTML текст”

- Исходное название папки и файла из которого производился импорт

Пример исходных данных (полный архив весит ±150 Gb): https://wdfiles.ru/0aac93

Заявки фрилансеров