Доработка парсера
Копенко7 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
23.01.2019
php 5.6 (multi curl, proxy)
Здравствуйте, есть старый парсер сайта, состоящий из 2 независимых частей. 1 часть сохраняет все страницы в БД в сжатом виде, 2 часть получает из БД сохраненные сжатые страницы, распаковывает их и парсит регулярными выражениями. Например:
$result = SELECT * FROM bigdata WHERE parse_url = "site '. $page
$content = gzuncompress($result['parse_content'];
Планируется перенос парсера на сервер и его автономная работа по крону, из-за чего надо доработать вторую часть для того, чтобы она работала самостоятельно, получая страницы не из БД, а через curl. Чтобы избежать банов, нужна поддержка прокси, плюс многопоточность для быстрой работы.