Парсер на Python

Веб-програмування
99 переглядів
10.05.2020
1920×1080674 КБ
screenshot.jpg

[h3] Что такое парсинг? [/h3][i]Парсинг [/i]- синтаксический анализ. Для этого создается математическая модель сравнения лексем с формальной грамматикой. Проще говоря, вся суть парсинга - [i]сбор и хранение[/i] нужной информации с веб-сайта. Она позволяет избавиться от CTRL+C, CTRL+V, ведь автоматизированный робот всегда быстрее найдёт и сохранит нужную информацию, чем если бы этим занимались вручную. [h3] Действительно ли так полезен парсер?[/h3]Если Вы задались этим вопросом, то вот Вам живой пример - я. Вероятнее всего я нашёл Ваш проект с помощью своего парсера, ради которого сейчас и толкуется речь. Не будь парсера, потратил бы намного много времени и сил, чтобы найти именно Ваш проект и оставить на нём заявку. [h3] Немного о моём парсере[/h3]Итак, давайте теперь поговорим о данном парсере. [b]Принцип работы: [/b]Парсер заходит на страницу https://www.weblancer.net/jobs/veb-programmirovanie-31/, анализирует её и находит ячейку, в которой общее количество страниц. Скрипт сохраняет это число и двигается дальше.  Теперь парсер будет отбрасывать все ненужные элементы со всех страниц, тем самым готовя страницы к финальному парсингу. Настал момент X, и теперь скрипт будет парсить и сохранять в список всю информацию о всех проектах. После этой процедуры парсер сохраняет результат в файл "weblancer_projects.csv". Важно отметить, что "weblancer_projects.csv" - Excel файл, поэтому Вы сможете просматривать его с любого приложения отображения таблиц.
Python