Парсер сайта

Базы данных
45 просмотров
05.03.2026
1531×68664 КБ
Снимок экрана 2026-03-05 180339.png

О проекте: Реализован автоматизированный скрипт для сбора данных с образовательного ресурса books.toscrape.com. Проект демонстрирует навыки извлечения структурированной информации из многостраничного веб-сайта и преобразования "сырого" HTML в готовый бизнес-отчет в формате Excel.

Технический стек:

  • Python 3 — основной язык разработки.

  • Requests — для взаимодействия с HTTP-протоколом и получения содержимого страниц.

  • BeautifulSoup4 — для навигации по DOM-дереву и поиска нужных элементов.

  • Pandas — для обработки данных и формирования финального файла .xlsx.

Ключевой функционал:

  • Масштабируемость: Скрипт настроен на обход 50 страниц (1000 товаров) с использованием динамического формирования URL.

  • Обработка исключений: Внедрена проверка статус-кодов (response.status_code), что гарантирует стабильность работы при ошибках сервера или отсутствии страниц.

  • Извлечение данных: Сбор детальной информации: полное название книги (атрибут title), цена и статус наличия на складе.

  • Структурирование: Очистка текстовых данных (метод .strip()) от лишних пробелов и переносов строк.

Результат: На выходе заказчик получает структурированную таблицу books.xlsx, готовую для импорта в CRM, анализа цен конкурентов или наполнения собственного каталога.

Ссылка на проект на github: https://github.com/IvanVIAB/simple-parser