Скрипт поиска RSS лент

Andrey16 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
11.10.2008

Необходимо сделать скрипт поиска RSS лент для каталога RSS каналов.

Скрипт надо реализовать на PHP.

Скрипт должен работать следующим образом:

1. Загружаем базу кейвордов (текстовый файл, на новой строке - новый кейворд).

2. Для парсинга необходимы поисковики: яндекс, гугл и live.com

3. После выбора поисковика - скрипт начинает его парсить по базе кейвордов.

4. По каждому кейворду парсим первые 100 результатов выдачи (сделать эту цифру в настройках, чтоб можно было менять).

5. Скрипт переходит по каждому результату выдачи и ищет на данном сайте rss канал. Если канал не найден - переходим к следующему результату выдачи и анализируем его.

6. Если канал найден на сайте:

6.1. Выдираем полный путь к RSS каналу (http://****полный путь****).

6.2. Анализируем RSS канал. Нас интересуют только те каналы, которые регулярно обновляются. Поэтому при анализе канала смотрим - сколько было новых сообщений за последние 2 дня. Если новых сообщений за последние 2 дня больше 10 (можно менять в настройках), то записываем путь к RSS каналу в успешные. Если меньше 10 - в плохие.

7. Ведем лог парсинга. Лог должен иметь такой вид:

Дата Кейворд Сайт Наличие канала Сумма новых сообщений за последние 2 дня.

Скрипт можно реализовывать как с базой MySQL, так и без нее - как удобнее.

После обработки скрипт должен выдать 3 файла:

1. good.txt (каналы, которые имеют 10 или более собщений за последние 2 дня). Имеет вид:

Дата записи Адрес Кол-во новых сообщений за последние 2 дня

2. bad.txt (каналы, которые имеют 9 или менее собщений за последние 2 дня). Имеет вид:

Дата записи Адрес Кол-во новых сообщений за последние 2 дня

3. log.txt - файл лога, его вид описан выше.

Настройки скрипта:

1. Сколько парсить результатов выдачи. (в описании 100)

2. Давность сообщений в канале. (в описании 2 дня)

3. Кол-во новый сообщений в канале. (в описании 10)

4. Сколько результатов выдачи смотреть за 1 запуск скрипта. (в описании 30)

Реализовать скрипт надо при помощи крона. За каждый запуск он будет смотреть 30 результатов выдачи.

После отработки скрипт должен выдавать следующие данные:

1. Сколько сайтов проанализировано. На скольких нет канала. На скольких есть плохие каналы. На скольких есть хорошие каналы.

2. Если база кейвордов полностью проанализирована, пишем - "Кейворды закончились".

И последнее. Скрипт должен вести анализ кейвордов, которые уже парсились в данном поисковике, чтобы не было повторов.

Также необходимо вести анализ сайтов, на которых производился поиск RSS каналов - также, чтобы избежать повторов.

Все ссылки на RSS каналы в файлах good.txt и bad.txt не должны повторяться (то есть не должно быть 2-х одинаковых ссылок).

E-mail: [email protected]

ICQ: 442935824