Парсер VK на питоне или другом серверном языке
На питоне или другом серверном языке поддерживающим многопоточность (чтобы в случае необходимости в будущем сделать быстро многопоточность) нужно написать скрипт, который используя API ВК (функцию users.get) будет перебирать последовательно всех пользователей ВК, получать информацию о них и сохранять данные в БД. Для того, чтобы не превысить лимит, функцию users.get нужно вызывать не чаще раза в 5 секунд. Функции нужно передавать максимально доступное кол-во параметров – 1000 штук. При ответе «Too many requests per second.» сделать паузу 10 секунд и повторить запрос. Если снова ошибка – ждем 30 секунд.
users.get не требует авторизации, поэтому авторизацию и получение токена делать не нужно, но нужно будет реализовать запросы через прокси (брать их рандомно из файла).
В парсере должна быть реализована поддержка рукапчи в случае если ВК потребует капчу.
Скрипт нужно будет разместить на нашем севере перед сдачей проекта.
При достижении конца списка пользователей (ВК вероятно сообщит об этом) – начать сбор с начала.
Работу скрипта нужно отображаться визуально используя например бутстрап. Нужно показывать следующие статистические данные:
• Сколько профилей уже спарсено
• Сколько профилей записано в БД
• Сколько капч потрачено в текущих сутках и с момента начала работы
• Размер БД в Мб (обновлять после клика по кнопке «Обновить»)
• Скорость парсинга за последнюю минуту и в час
На странице со статистикой должна быть кнопка паузы и запуска работы.
В БД должны попасть только те вк-аккаунты у которых есть инстаграмм-аккаунт в профиле.
В БД должны быть следующие поля:
• Id записи
• Текущая дата
• Пол (1 – женский, 2 – мужской, 0 – неизвестно)
• Дата рождения (только если ВК отдал ее полнотью т.е. в формате 23.11.1981)
• Id страны
• Id города
• Время последнего захода юзера в вк
• Семейное положение
• Интересы
• Логин в инстаграме