Скрипт-парсер на php
Задача - написать php-скрипт, который бы разбирал страницу из указанного источника.
На текущий момент таких источников 15. Под каждый, естественно, пишется и оплачивается индивидуальный скрипт.
Результатом работы должен быть xml-файл, содержащий: meta-поля исходной страницы (title, description, keywords), заголовок страницы, текст, название источника и ссылка на него, ссылка на оригинал страницы. Файлу присваивается произвольное имя. Названия полей xml на Ваше усмотрение.
Также скрипт должен скачивать и сохранять в папку изображения, входящие в данную страницу. Изображения складываются в папку с именем идентичным имени xml-файла.
При обработке текстового содержания также нужно "очищать" исходный html, с тем чтобы убрать признаки форматирования, названия классов и т.п., т.е. на выходе вместо
должно быть
и т.д.
Также пути к картинкам должны быть исправлены на относительные, чтобы картинки загружались не с сайта-источника, а с преобразованной страницы.
Для того, чтобы выполнение проекта было поручено Вам, выполните, пожалуйста, разбор страницы http://korrespondent.net/kyiv/807215 по требованиям описанным выше.
В результирующий файл должна попасть только сама новость, начиная с заголовка и заканчивая "По материалам: УНИАН", то что идет до и после - игнорируется.
Результат разместите на любом доступном Вам хостинге. Так чтобы можно было зайти на страницу, ввести адрес (http://korrespondent.net/kyiv/807215), нажать ОК и получить ссылку на скачивание сформированного xml-файла и ссылки на сохраненные изображения, которые входят в состав страницы.
После проверки тестового задания, проект будет передам Вам на выполнение и сообщены адреса остальных источников.
Просьба в предложениях указать цену за каждый скрипт (т.е. за отдельный источник), можно не точную, достаточно от ... до ... . Возможно, источников станет больше или меньше.