Парсер сайта
Добрый день, написание парсера для сайта.
- Рекурсивный сбор ссылок по маске запись в бд без дублей. Ссылка донор для паука http://sprashivai.ru/парсим ссылки: http://sprashivai.ru/{имя пользователя}/question/{ID сообщения}
- Проход по собранным ссылкам, сбор контента, проверка на дубли, очистка от мусора, тегов, урл привод к нужному виду (нижний регистр, 1 буква заглавная, на конце знак препинания), помечаем что ссылка уже обработаны. Результат парсинга записываем в бд. Комментарии к коду. Скрипт запускаем в CRON.
Прошу в комментариях указывать стоимость данной работы. Исполнитель будет выбран ближе к концу публикации 31.05.16 основываясь на отзывах и стоимости.
p/s изменил описание, добавил пример, но скрипт нужен гибкий, чтобы регулярками можно было настроить и для другого сайта, многопоточность приветствуется.