Импорт базы данных из файлов
Задача:
Написать парсер, который рекурсивно обойдет все файлы, которые хранятся на диске, разберёт данные и положит их в PostgreSQL.
Количество записей: ±2 млн
Объем данных: ±150 Gb
База данных: PostgreSQL (будет хоститься на DigitalOcean)
Требования:
- Ведение лога, чтобы можно было отловить ошибки и быть уверенным в целостности данных.
- Высокая скорость импорта. Нужно выбрать оптимальный способ для импорта данных в PostgreSQL. Желательная скорость 2-5 часа. Допустимая скорость 12 часов.
Структура базы данных:
- URL
- Title страницы
- Категория (laptops/device/hwid)
- Тип устройства (sound/video/ etc…) – только для категории device
- Бренд производителя (Acer/Asus/Nvidia/Intel/ etc…)
- Остальной HTML текст
- Количество символов в поле “Остальной HTML текст”
- Исходное название папки и файла из которого производился импорт
Пример исходных данных (полный архив весит ±150 Gb): https://wdfiles.ru/0aac93