Серверный парсер сайтов из текстовых списков
Есть база Я.Каталога, формат ее в текстовом виде (2700 txt-файлов):
cat.txt - cat.Sports.txt - cat.Sports.Winter_sport.txt - cat.Sports.Winter_sport.Turin2006.txt
Если рубрика - то в файле названия подрубрик в формате (en) tab (ru)
Пример такого тхт-файла приложен.
Цель: база имейлов сайтов из Я.Ка, на которых встречается заданное слово.
Выполнять серверный парсер должен следующее:
1. Пройтись по списку сайтов, и исходя из текста на главной странице сайта сделать новую выборку. Т.е. например ставится задача найти все сайты со словом "Бульдозер" в тексте главной страницы (не глубже, только главная).
2. Отобранные сайты добавляются в новую базу. И уже теперь по этой базе ведется поиск имейлов на сайте.
Начальный результат: слово (или слова через запятую, логическое ИЛИ), по которому искать.
Конечный результат: база со столбцами (урл тематики, урл сайта, имейл).