Граббинг HTML-кода

Александр19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
29.03.2008

Требутеся написать серверный модуль для регулярного граббинга хтмл кода который в автоматическом режиме должен уметь проводить опереции для большого количества сайтов:

1. Грабить хтмл код , таблицы стилей и картинки (примерно так так это делает телепорт) с тех урлов которые админ указывает в админ части.

2. Сохранить награбленные хтмл старницы на сервре для возможного использования в будущем.

3. Пропарсить награбленные страницы для того чтобы удалить похожие ненужные коды, сгруппировать идентичные страницы .

4. Просканировать ссылки на сайт для определения лучшей версии.

5. Добавить хтмл php или javascript коды в пропарсенные страницы, сгенерировать .htaccess файл .

6. Выложить обработанные хтмл файлы по ftp на указанный админов укканут.

7. Всё это админ делает через свой админ интерфейс.

По каждому пункту есть подробная инструкция.