Серверный парсер сайтов из текстовых списков

Романцев17 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

12.01.2009

Есть база Я.Каталога, формат ее в текстовом виде (2700 txt-файлов):

cat.txt - cat.Sports.txt - cat.Sports.Winter_sport.txt - cat.Sports.Winter_sport.Turin2006.txt

Если рубрика - то в файле названия подрубрик в формате (en) tab (ru)

Пример такого тхт-файла приложен.

Цель: база имейлов сайтов из Я.Ка, на которых встречается заданное слово.

Выполнять серверный парсер должен следующее:

1. Пройтись по списку сайтов, и исходя из текста на главной странице сайта сделать новую выборку. Т.е. например ставится задача найти все сайты со словом "Бульдозер" в тексте главной страницы (не глубже, только главная).

2. Отобранные сайты добавляются в новую базу. И уже теперь по этой базе ведется поиск имейлов на сайте.

Начальный результат: слово (или слова через запятую, логическое ИЛИ), по которому искать.

Конечный результат: база со столбцами (урл тематики, урл сайта, имейл).