Скрапер для букмекерского сайта
Необходима написанная на Java компонента, которая скачивает данные о ставках (все ставки по всем видам спорта) с сайта http://bet-at-home.com/start.aspx и записывает их в заданном XML формате.
Имея в планах около 30 аналогичных проектов, мы заинтересованы в длительном сотрудничестве с исполнителем. ПОЖАЛУЙСТА НЕ ПРЕДЛАГАЙТЕ ВАШИ УСЛУГИ, если Вы не способны уделить аналогичным проектам по крайней мере 20 часов в неделю в ближайшие 2 месяца.
ПОЖАЛУЙСТА НЕ ПРЕДЛАГАЙТЕ ВАШИ УСЛУГИ, если Вы хотите выполнить эту задачу на другом языке программирования, либо не готовы пользоваться Eclipse 3.5, либо не умеете пользоваться SVN.
- Для выходного формата опеределен java mapping (EMF), прямого манипулирования XML не потребуется.
- Формат был разработан для хранения ставок с более насыщенного ставками сайта, и, вероятно, достаточен для хранения всей информации с bet-at-home. Формат имеет отдельные классы для большинства "маркетов" (см. ниже), и предназначен для автоматической (а не ориентированной на человека) обработки информации, ИСКЛЮЧАЯ возможность хранить данные в виде /. Возможные изменения/дополнения к формату должны быть заранее согласованы.
- Компонента должна явным образом сообщать о всех встреченных проблемах.
- Компонента должна быть достаточно устойчива к изменениям выходного формата сайта.
- Компонента должна сохранять достаточно информации для того, чтобы можно было программно сделать выбранную ставку (url, marketId, betId, etc)
Компонента будет использована в проекте, уже работающим с другими букмекерскими сайтами, доступ к имеющемуся коду может быть предоставлен после подписания NDA.
- Компонента должна содержать JUnit тесты, работающие c заранее скачанными HTML файлами. Тесты должны покрывать по крайней мере 80% поддержанных "маркетов" (маркетом считается группа связанных ставок, выделенная в таблицах bet-at-home жирным шрифтом. Например, стандартная страница с футболом содержит около 10 маркетов, включая "When will the first goal be scored?" -- отдельный маркет). Инфраструктура для тестов и примеры -- имеются.
- Скрапер должен использовать уже имеющиеся в проекте библиотеки, включая Apache HTTPClient, и HTML Cleaner (v.2.0 http://htmlcleaner.sourceforge.net/). Имеющийся код предоставляет большое количество примеров использования библиотек. Предложения по использованию дополнительных библиотек должны быть согласованы заранее (и в целом маловероятны)
- Результаты должны быть предоставлены в виде закоммиченного в SVN репозиторий Eclipse 3.5 проекта(-ов), запускаемых из Эклипса (включая тест кейсы), специальные билд скрипты не требуются.
Перед тем как постить бид, пожалуйста,
- Внимательно изучите структуру bet-at-home.
- Прочитайте мануал к HTMLCleaner на SourceForge, особенно часть, касающуюся частичной поддержки xpath выражений (http://htmlcleaner.sourceforge.net/doc/org/htmlcleaner/XPather.html)
- Обратите внимание на количество маркетов по имеющимся видам спорта.
- Для того чтобы мы поверили, что Вы способны прочесть скучные реквайрменты до конца, пожалуйста начните Ваш ответ со слова "футуристический".
Если Вас заинтересовала эта работа, напишите пожалуйста
- предложение по бюджету проекта
- оценку ETA -- времени до полного завершения
- по желанию, ваш опыт в затрагиваемых областях
- предпочитаемый способ оплаты
Ваш бид может включать в себя 2 части --
- отдельно все маркеты по футболу, хоккею и "лошадкам". (требование 80% покрытия JUnit внутри группы остается)
- отдельно все остальные маркеты (+80% JUnit)
Напишите пожалуйста также, сколько времени в неделю вы сможете уделить программированию аналогичных компонент в ближайшие 2-3 месяца, в случае удачного выполнения текущего задания.
Спасибо,
АТ