Парсинг сайта
Вот страница - https://www.farpost.ru/zapchasti/ Вот таблица - https://docs.google.com/spreadsheets/d/1xoJ5VkoR062-w_4uCbSggS8yGtvocLqurlgqdwiy7t4/edit?usp=sharing, в ней 220.000 строк. К примеру, у нас в таблице есть строка, в которой "Kia Rio" и "дверь".
Переходим на фарпосте на страницу марка\модель\запчасть и видим выдачу объявлений - https://dl.dropboxusercontent.com/s/owp1jqut559rgv1/firefox_DUbHsdIQKc.png
(запрос и машину-модель в урл для гет-запроса можно сразу подставлять, трансформируя)
У этих объявлений надо спарсить:
1) превью фото
2) заголовок объявления
3) цену
В первоначальную таблицу записать эти данные к строке.
т.е. из одной такой строки будет получаться много.
парсить надо не все из выдачи, а 48 штук.
Сейчас в таблице: Марка модель категория.
В документе на выходе:
Марка модель категория заголовок объявления цена превью (картинки скачиваем).
https://dl.dropboxusercontent.com/s/tfd6qqh5mt5uw2u/EXCEL_quqaqm9FyF.png
Надо работать с прокси\капчей, потому что при большом кол-ве запросов начинает блокировать сайт.
По такой же схеме можно спарсить сайт drom.ru или авито.