Парсер сайта

45 просмотров

05.03.2026

О проекте: Реализован автоматизированный скрипт для сбора данных с образовательного ресурса books.toscrape.com. Проект демонстрирует навыки извлечения структурированной информации из многостраничного веб-сайта и преобразования "сырого" HTML в готовый бизнес-отчет в формате Excel.

Технический стек:

Python 3 — основной язык разработки.
Requests — для взаимодействия с HTTP-протоколом и получения содержимого страниц.
BeautifulSoup4 — для навигации по DOM-дереву и поиска нужных элементов.
Pandas — для обработки данных и формирования финального файла .xlsx.

Ключевой функционал:

Масштабируемость: Скрипт настроен на обход 50 страниц (1000 товаров) с использованием динамического формирования URL.
Обработка исключений: Внедрена проверка статус-кодов (response.status_code), что гарантирует стабильность работы при ошибках сервера или отсутствии страниц.
Извлечение данных: Сбор детальной информации: полное название книги (атрибут title), цена и статус наличия на складе.
Структурирование: Очистка текстовых данных (метод .strip()) от лишних пробелов и переносов строк.

Результат: На выходе заказчик получает структурированную таблицу books.xlsx, готовую для импорта в CRM, анализа цен конкурентов или наполнения собственного каталога.

Ссылка на проект на github: https://github.com/IvanVIAB/simple-parser