Подправить парсер XML
Некто Антон Шевчук написал класс + дизайн для работы с Яндекс.XML
Вот исходники http://code.google.com/p/yandex/
Там три файла - сам класс, файл css, и морда скрипта.
Вот пример работы: http://yandex.hohli.com/
Подробнее об XML и регистрации IP http://xml.yandex.ru/
Задача: немножко подправить этот скрипт.
Мне нужно, чтобы скрипт быстро проверял проиндексированность списка страниц в Яндексе.
Ограничение в 1000 запросов в сутки меня устраивает.
Т.е.:
1). Убираем в index.php поле input для запроса и инфу о скрипте. На его месте размещаем textarea.
2). В textarea вводится список урлов для проверки вида http://domen.ru/pages/page100500.php или там
http://www.domen2.ru/view/index.html
Далее в цикле:
3). Приводим один домен из списка к виду domen.ru/pages/page100500.php (вырезаем www и http)
4). Составляем запрос вида:
url="www.domen.ru/pages/page100500.php"|url="domen.ru/pages/page100500.php"
5). Используя готовый класс задаём запрос и получаем XML с ответом.
Собственно результатов для данного запроса может быть только три:
1). Страница не найдена
2). Страница найдена по одному из вариантов.
3). Страница найдена по обоим вариантам (c www и без него).
По результатам запроса выводим на экран:
1). Проверенный урл.
2). Если он найден по запросу выводим - найдено n (1 или 2) страниц и title найденной страницы.
3). Если ничего не найдено - так и пишем - "Не найден".
Можно использовать css идущий в комплекте. Внешний вид мне абсолютно не важен.
Попутно результаты записываем в два файлика:
проиндексированные урлы в файл founded.txt
непроиндексированные, соответственно, в not_foundex.txt
Это всё. Фактически задачка на 10-15 минут и ~20 строк кода. Обязательно наличие аськи у исполнителя.