Парсинг букмекерских контор
Необходимо спарсить ставки по всем событиям и видам спорта в разделах Live-ставок со следующих букмекерских контор:
https://zenit20072019.top/new/live
https://479921.olimp3ed3.top/betting
(если какая-либо из ссылок не открывается - ищите в интернете зеркала, они постоянно меняются)
Требования:
- парсинг в реальном времени;
- максимальное время от получения всех данных до их поступления на
основной сервер 5 сек (решения дольше 5 сек уже есть, они не
устраивают);
- обход защит в том случае, если будут происходить блокировки (а они, судя по отзывам других специалистов, происходят).
Примечания:
Заранее предупреждаю что вариант с отправкой HTTP-запроса и парсингом ответа
сервера не подходит, поскольку тот же Bet365 выдает JavaScript-код
генерирующий страницу уже на front-end'е. Также, данные в таблицах
подгружаются без перезагрузки страниц - вероятно, требуется внедрение в
страницу JS-кода обрабатывающего эти изменения и отсылающего все на
сервер. Вижу в качестве возможного решения использование нечто вроде
Selenium, UI Kantu, Laravel Dusk, PhantomJS / CasperJS, но это лишь
предположения, Вы можете предложить еще более эффективные решения, если
они у Вас есть.
С написанием JS-кода извлекающего данные с каждой из страниц проблем нет - при необходимости, могу разработать и
предоставить данный код. Ключевая задача сейчас не столько в том чтобы
распарсить каждую отдельную страницу, сколько в том, чтобы
спроектировать программный продукт обходящий ограничения и защиты каждой
из БК и обеспечивающий необходимое быстродействие для обработки этого
множества страниц на разных сайтах (распределение задач по парсингу
между несколькими машинами).
Жду:
- краткое описание способа реализации в нескольких предложениях (логика/принцип, технология);
- требования к среде исполнения (если нужны сервера - сколько и какой конфигурации);
- сроки;
- бюджет.
P.S. Пожалуйста, реально оценивайте ваши силы. Парсинг БК - не парсинг интернет-магазинов - здесь ситуация сложнее. В первую очередь подумайте про распределение нагрузки (вряд ли один компьютер вытянет) и обход возможных блокировок, сам код извлекающий цифры со страниц - последнее (и не самое трудное) дело в данной задаче.