Простенький граббер форумов

Паперно17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
10.02.2010

Нужен некий скрипт/тулза, который мог бы с заданного форума вытаскивать все сообщения из всех тем и складывать их в текстовые файлы. Сохранение информации о структуре, внутренних ссылках и пр. не требуется - нужен только текст сообщений, без служебной инфы (автор сообщения, дата и пр.) и с удалением квотируемого текста.

Доп. требования:

- сохранение точки останова, для повторного запуска не "с нуля" (не 100% обязательно, но очень желательно)

- обработка в нескольких thread'ах.

- скорость парсинга текста сравнимая со скоростью выкачивания текста (~3МБ/сек)

На входе (в ini-файле, в произвольном формате):

- url стартовой страницы

- формат url для прохода по разделам

- формат url для прохода по темам

- формат url для прохода по страницам темы

- правило поиска начала/конца сообщения

- правило поиска начала/конца квотинга

На выходе:

- каталог с набором текстовых файлов

- по одному файлу на тему форума

- сообщения разделены друг от друга

Заявки фрилансеров