Скачивание и обработка кода индексной страницы
Андрей16 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
23.04.2011
ТЗ.
Основная цель получить шаблон с индексной страницы. Для этого
брать/скачивать индексную страницу и выдергивать оттуда хтмл-код:
- удалять коментарии;
- удалять джаваскрипты;
- найти среди тегов контейнер с самым большим куском текста заменить оный на [TEXT]
- найти среди тегов контейнер с самым большим количеством урлов
- вставить между тегами [TITLE]
- результат сохранить в отдельный файл