Парсер фрилансеров

Прикладное ПО

18 просмотров

23.02.2023

Использованные библиотеки: requests, json, time, beautifulsoup4, lxml, fake_useragent. Не уверен, можно ли писать название биржи, с которой я парсил, поэтому скажу лишь, что это не Веблансер. Парсер работает только на первых ста страницах списка специалистов, потому что парсить их все (>4700) было бы слишком долго и бессмысленно для неоплачиваемого проекта. Хотя, если кому-то вдруг очень нужно, то можно спарсить абсолютно всех фрилансеров Чтобы не долбить сайт запросами сверх меры, я одним реквестом записывал каждую страницу в html-файл, а потом уже работал с этой загруженной копией. Ещё, чтобы парсер выглядел человечнее, он рандомно генерирует себе User_agent каждую итерацию, а между самими итерациями есть пауза в 2 секунды. У каждого фрилансера я нашёл: [list][*]Имя[*]Специализацию[*]Позитивные оценки[*]Негативные оценки[*]Цену работы[*]Текст о себе[*]Проекты в портфолио (или их отсутствие)[*]Указанные теги[/list]Затем всё это я залил в json-файл, который длиной вышел в 46 тысяч строк. [i](сам я, кстати, нахожусь на строчках 9436-9454)[/i]

HTML