Написать парсер для сбора данных по ссылкам.
ЗАДАЧА
Нужно написать парсер, который будет проходить по списку выданных сайтов и собирать контактную информацию.
1. Все сайты это финские компании с одним и тем же видом деятельности.
- Структура сайтов и дизайн разные.
- Степень защиты сайтов разная
2. Собирать надо все контактные данные, которые имеются.
(Порядок и наличие данных может быть разным, в зависимости от сайта.)
- Название отдела - по возможности
- Имя Фамилия - по возможности
- Должность - по возможности
- Телефон - обязательные данные
- Email - обязательные данные
3. Парсер должен искать данные в футере/хедере, также, заходить в раздел "контакты"/"о нас" и искать там, так как зачастую в футере/хедере может не быть данных или там только почта фирмы, а не CEO и т.д
КОНТАКТНЫЕ ДАННЫЕ
- Контактные данные - (то есть Название отдела, Должность, Имя Фамилия, телефон, email)
- Расположение контактных данных могут быть как на главной странице так и на отдельной предназначенной странице.
- Расположение контактных данных может быть как в шапке сайта, в футере, так и в любом другом месте на странице.
- На сайте может быть только один телефон и один email.
ВЫВОД РЕЗУЛЬТАТОВ
Вывод результатов должен быть в виде CSV файла
Данные должны быть структурированы (например номер телефона и почта) должны быть связаны друг с другом, чтобы было понятно, какой номер телефона принадлежит какой почте.
По возможности данные должны быть отфильтрованы от лишних данных (дубликатов и нерелевантных данных)
ИТОГ
Конечным продуктом является рабочий парсер с исходным кодом и с документацией, в котором можно самостоятельно заменять ссылки и чтобы он выполнял вышеуказанные задачи.
ДОПОЛНИТЕЛЬНО
К заданию прикреплен файл с частью ссылок для примера, а также скриншоты того какие именно данные собирать на сайте, а также пример того как полученные данные приблизительно должны выглядеть.
Заявки фрилансеров




