Парсер по ссылкам на разные сайты
Написать скрипт который будет переходить по ссылкам из списка, копировать ключевое слово, и добавлять в наш sql.
Цель скрипта:
1. Переход по ссылкам из списка.
Ссылки постоянно обновляются в списке, ссылок более чем 40 000, сайтов примерно 1000, сайты разные!
2. Скрипт ищет на странице ключевое слово «Состояние», копирует ответное значение данного поля…
4. Сохраняет ответ поля в нашу базе, и запоминает из какой ссылки был получен данный ответ.
5. Лог действий скрипта.
Так как сайтов не мало, и у каждого своя структура, то лог нужен для мониторинга работы скрипта…
Функциональная логика:
1. Подключение к базе
2. Выборка данных в массив
3. Проход каждой ссылки CURL-ом через прокси
4. Поиск в результате ответа нужного участка кода с помощью регулярных выражений
5. Обработка найденного на предмет нужного ответа
6. Занесение ответа в базу по id строки в базе
7. Ведение пошагового txt лога