Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Скрипт выкачивает нужные страницы с сайта и помещает в базу MySQL фразу, имя автора, внутренний id с сайта, раздел, к которому относится фраза на сайте. Информация об обработанных URL и тех, которые нужно обработать, хранится в БД, скрипт можно прервать в любой момент и потом запустить снова – продолжит обработку с того файла, на котором остановился. Обработано около 9000 страниц, извлечено около 80000 фраз. Для разбора страниц использовал XPath.