Обработка списка RSS
Задание состоит в следующем:
Я предоставляю список адресов RSS лент, список 100 адресов (если понравится работа будут еще заказы).
Необходимо зайти через ленту на каждый сайт, и в коде страницы найти повторяющееся выражение перед заглавием статьи и после всего текста, (так чтобы скрипт смог определить начало и конец статьи безошибочно на всех страницах) и проверить что выражение повторяется на нескольких статьях.
Например адрес:
http://electrik.info/rss.xml Заходим, открываем по ссылкам из ленты на несколько статей третьего уровня (не ленту блога) и находим
выражение Начало:
Окончание:
Эти выражения повторяются везде на сайте перед и после статьи.
Результатом работы должен быть файл с таблицей: первая колонка адрес вторая колонка начало, третья колонка окончание.
Кто работал с граберами рсс и их настройкой будет понятнее и легче.