Многопоточный настраиваемый парсер
Парсер.
Работает по принципе обхода заданных диапозонов ссылок (по различным параметрам) - кто делал тот знает.
Самый быстрый в своем роде. Предложите в форуме какую ОС вы считаете наиболее подходящей.
Функционал:
- обход по списку линков;
- обход по программе - список линков (для каждого линка настрока своих правило обхода с исключениями);
- задачи параметров анализа текста HTML для сбора нужных значений в базу;
- сбор значений находящихся на страницах по определенным параметрам.
Работа по списку проксей. Периодиеская смена проксей - проверка на коннект - если есть коннект, подстановка вместо старых проексей. Назначание времени.
Все должно быть реализовано просто, но в лучшем стиле в плане быстроты, многопоточности.
Различные надстройки, например:
по окончании сбора удаления дубликатов по указанному заранее полю;
проход линков, которые добавило в ERROR повторно по завершении проекта;
кодировки;
метка браузера - смена по графику;
таймауты;
автосохранение проекта в процессе. сохранение в зип.
Короче стучитесь.