Написание скрипта для сдирания инфы с сайта
Сайт называется www.soccerway.com
На нем находятся результаты игр для всех чемпионатов по футболу за последние кучу лет и он ежедневно пополняется новыми играми.
Нужно выкачать инфу про каждую игру в таком формате: год;месяц;день;команда_1;команда_2;голы_1;голы_2;ставка_на_команду_1;ставка_на_ничью;ставка_на_команду_2;страна;лига.
Короче в строке получается 12 параметров.
Инфа про каждую игру находится на отдельной странице этой конкретной игры. Добираться до каждой игры проще всего так:
1. открывается страница с датой (например, http://www.soccerway.com/freeresults.php?date=2008-03-24&type=all ) 2. в ней необходимо раскрыть все страны(нажимая "+" правее названия страны) и лиги(для одной страны одновременно выводится только одна высшая лига, низшие нужно нажимать отдельно)
3. и там уже заходишь в каждую игру подряд.
Так же в каждую игру можно зайти так http://www.soccerway.com/match////531249/ (Но мне все равно требуется скачивалка каждого календарного дня, который я захочу)
Вот стандартная страница игры
3 первых параметра берем из этой строки на этой странице Date: March 15th, 2008 / 16:00
2 названия команд необходимо брать из пути страницы т.е. команда_1 = west-ham-united-football-club и команда_2 = blackburn-rovers-football-club
2 голов необходимо брать именно из этой строки After 90 minutes: 2-1
3 ставки отсюда Best odds for West Ham United vs Blackburn Rovers 2.35 3.20 2.75
1 страна из названия рисунка с флагом почти в самом верху страницы с игрой flag_england.png = england
1 лига берется из пути premiership
Ну в принципе все вроде.
Все нужно сделать на хосте и в MySql. Но мне в принципе пофигу - есть безлимит. Игр всего щас в базе на сайте примерно тысяч 500 с хвостиком. каждая страница с игрой весит 100 кб. около 60 Гб надо обработать