Парсинг букмекерских контор

Вадим10 років у сервісі
Дані замовника будуть вам доступні після подання заявки
22.08.2019

Необходимо спарсить ставки по всем событиям и видам спорта в разделах Live-ставок со следующих букмекерских контор:

https://www.bet365.com/#/IP/

https://zenit20072019.top/new/live

https://479921.olimp3ed3.top/betting

(если какая-либо из ссылок не открывается - ищите в интернете зеркала, они постоянно меняются)

Требования:

- парсинг в реальном времени;

- максимальное время от получения всех данных до их поступления на

основной сервер 5 сек (решения дольше 5 сек уже есть, они не

устраивают);

- обход защит в том случае, если будут происходить блокировки (а они, судя по отзывам других специалистов, происходят).

Примечания:

Заранее предупреждаю что вариант с отправкой HTTP-запроса и парсингом ответа

сервера не подходит, поскольку тот же Bet365 выдает JavaScript-код

генерирующий страницу уже на front-end'е. Также, данные в таблицах

подгружаются без перезагрузки страниц - вероятно, требуется внедрение в

страницу JS-кода обрабатывающего эти изменения и отсылающего все на

сервер. Вижу в качестве возможного решения использование нечто вроде

Selenium, UI Kantu, Laravel Dusk, PhantomJS / CasperJS, но это лишь

предположения, Вы можете предложить еще более эффективные решения, если

они у Вас есть.

С написанием JS-кода извлекающего данные с каждой из страниц проблем нет - при необходимости, могу разработать и

предоставить данный код. Ключевая задача сейчас не столько в том чтобы

распарсить каждую отдельную страницу, сколько в том, чтобы

спроектировать программный продукт обходящий ограничения и защиты каждой

из БК и обеспечивающий необходимое быстродействие для обработки этого

множества страниц на разных сайтах (распределение задач по парсингу

между несколькими машинами).

Жду:

- краткое описание способа реализации в нескольких предложениях (логика/принцип, технология);

- требования к среде исполнения (если нужны сервера - сколько и какой конфигурации);

- сроки;

- бюджет.

P.S. Пожалуйста, реально оценивайте ваши силы. Парсинг БК - не парсинг интернет-магазинов - здесь ситуация сложнее. В первую очередь подумайте про распределение нагрузки (вряд ли один компьютер вытянет) и обход возможных блокировок, сам код извлекающий цифры со страниц - последнее (и не самое трудное) дело в данной задаче.