Парсинг блога
Иван13 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
21.03.2014
Нужно спарсить информацию блога в таком виде:
1. открываем страницу со статьями вида
2. парсим содержимое каждой конечной статьи
3. анализируем содержимое статьи и сохраняем в csv файл внешние ссылки, которые были найдены в статье (внутренние не надо) - содержание файла: http://c2n.me/73Tlla.png
ID - это айди статьи, которая указана в поле URL_Article
Количество страниц со статьями - 162, количество статей на странице - 20. т.е. итого: 3200 статей
-
структура сайта логичная и регулярками легко распарсится.
-
сначала нужно будет отпарсить 50 статей и подтвердить, что все ок.
50 вмз