Скрипт-парсер на php

Александр17 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

20.04.2009

Задача - написать php-скрипт, который бы разбирал страницу из указанного источника.

На текущий момент таких источников 15. Под каждый, естественно, пишется и оплачивается индивидуальный скрипт.

Результатом работы должен быть xml-файл, содержащий: meta-поля исходной страницы (title, description, keywords), заголовок страницы, текст, название источника и ссылка на него, ссылка на оригинал страницы. Файлу присваивается произвольное имя. Названия полей xml на Ваше усмотрение.

Также скрипт должен скачивать и сохранять в папку изображения, входящие в данную страницу. Изображения складываются в папку с именем идентичным имени xml-файла.

При обработке текстового содержания также нужно "очищать" исходный html, с тем чтобы убрать признаки форматирования, названия классов и т.п., т.е. на выходе вместо

должно быть

и т.д.

Также пути к картинкам должны быть исправлены на относительные, чтобы картинки загружались не с сайта-источника, а с преобразованной страницы.

Для того, чтобы выполнение проекта было поручено Вам, выполните, пожалуйста, разбор страницы http://korrespondent.net/kyiv/807215 по требованиям описанным выше.

В результирующий файл должна попасть только сама новость, начиная с заголовка и заканчивая "По материалам: УНИАН", то что идет до и после - игнорируется.

Результат разместите на любом доступном Вам хостинге. Так чтобы можно было зайти на страницу, ввести адрес (http://korrespondent.net/kyiv/807215), нажать ОК и получить ссылку на скачивание сформированного xml-файла и ссылки на сохраненные изображения, которые входят в состав страницы.

После проверки тестового задания, проект будет передам Вам на выполнение и сообщены адреса остальных источников.

Просьба в предложениях указать цену за каждый скрипт (т.е. за отдельный источник), можно не точную, достаточно от ... до ... . Возможно, источников станет больше или меньше.

HTML PHP