Простенький граббер форумов
Нужен некий скрипт/тулза, который мог бы с заданного форума вытаскивать все сообщения из всех тем и складывать их в текстовые файлы. Сохранение информации о структуре, внутренних ссылках и пр. не требуется - нужен только текст сообщений, без служебной инфы (автор сообщения, дата и пр.) и с удалением квотируемого текста.
Доп. требования:
- сохранение точки останова, для повторного запуска не "с нуля" (не 100% обязательно, но очень желательно)
- обработка в нескольких thread'ах.
- скорость парсинга текста сравнимая со скоростью выкачивания текста (~3МБ/сек)
На входе (в ini-файле, в произвольном формате):
- url стартовой страницы
- формат url для прохода по разделам
- формат url для прохода по темам
- формат url для прохода по страницам темы
- правило поиска начала/конца сообщения
- правило поиска начала/конца квотинга
На выходе:
- каталог с набором текстовых файлов
- по одному файлу на тему форума
- сообщения разделены друг от друга