Многопоточный настраиваемый парсер

Евгений18 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
17.01.2007

Парсер.

Работает по принципе обхода заданных диапозонов ссылок (по различным параметрам) - кто делал тот знает.

Самый быстрый в своем роде. Предложите в форуме какую ОС вы считаете наиболее подходящей.

Функционал:

- обход по списку линков;

- обход по программе - список линков (для каждого линка настрока своих правило обхода с исключениями);

- задачи параметров анализа текста HTML для сбора нужных значений в базу;

- сбор значений находящихся на страницах по определенным параметрам.

Работа по списку проксей. Периодиеская смена проксей - проверка на коннект - если есть коннект, подстановка вместо старых проексей. Назначание времени.

Все должно быть реализовано просто, но в лучшем стиле в плане быстроты, многопоточности.

Различные надстройки, например:

по окончании сбора удаления дубликатов по указанному заранее полю;

проход линков, которые добавило в ERROR повторно по завершении проекта;

кодировки;

метка браузера - смена по графику;

таймауты;

автосохранение проекта в процессе. сохранение в зип.

Короче стучитесь.