Парсер сайта
О проекте: Реализован автоматизированный скрипт для сбора данных с образовательного ресурса books.toscrape.com. Проект демонстрирует навыки извлечения структурированной информации из многостраничного веб-сайта и преобразования "сырого" HTML в готовый бизнес-отчет в формате Excel.
Технический стек:
Python 3 — основной язык разработки.
Requests — для взаимодействия с HTTP-протоколом и получения содержимого страниц.
BeautifulSoup4 — для навигации по DOM-дереву и поиска нужных элементов.
Pandas — для обработки данных и формирования финального файла
.xlsx.
Ключевой функционал:
Масштабируемость: Скрипт настроен на обход 50 страниц (1000 товаров) с использованием динамического формирования URL.
Обработка исключений: Внедрена проверка статус-кодов (
response.status_code), что гарантирует стабильность работы при ошибках сервера или отсутствии страниц.Извлечение данных: Сбор детальной информации: полное название книги (атрибут
title), цена и статус наличия на складе.Структурирование: Очистка текстовых данных (метод
.strip()) от лишних пробелов и переносов строк.
Результат: На выходе заказчик получает структурированную таблицу books.xlsx, готовую для импорта в CRM, анализа цен конкурентов или наполнения собственного каталога.
Ссылка на проект на github: https://github.com/IvanVIAB/simple-parser
