Доработка парсера

Копенко7 років у сервісі

Дані замовника будуть вам доступні після подання заявки

23.01.2019

php 5.6 (multi curl, proxy)

Здравствуйте, есть старый парсер сайта, состоящий из 2 независимых частей. 1 часть сохраняет все страницы в БД в сжатом виде, 2 часть получает из БД сохраненные сжатые страницы, распаковывает их и парсит регулярными выражениями. Например:

$result = SELECT * FROM bigdata WHERE parse_url = "site '. $page

$content = gzuncompress($result['parse_content'];

Планируется перенос парсера на сервер и его автономная работа по крону, из-за чего надо доработать вторую часть для того, чтобы она работала самостоятельно, получая страницы не из БД, а через curl. Чтобы избежать банов, нужна поддержка прокси, плюс многопоточность для быстрой работы.

PHP