Написать десктопный парсер (Windows) под Инстаграм
Сразу говорю, что на зеннопостере/зеннобоксе вариант не подойдет. Нужно свое скоростное решение.
Алгоритм парсинга следующий:
1) Указывается аккаунт/список аккаунтов для парсинга
2) Парсер выпаршивает список подписчиков с этих аккаунтов в отдельный txt. Парсер должен показывать прогресс (общее кол-во подписчиков и сколько спарсило). Его можно остановить, спарсенные данные должны сохраниться в txt на момент остановки.
3) Загружается список подписчиков, и парсятся хэштеги, на которые они подписаны.
На примере. Парсер заходит в подписки каждого подписчика - http://joxi.ru/L21aoDIRpzBj2X , переходит в хэштеги и парсит раздельно, все хэштеги, на которые он подписан - http://joxi.ru/12Md6JIlYw9NmJ . Закрытые аккаунты пропускает. Если нет подписки на хэштег, то парсит следующего подписчика. Парсер должен показывать прогресс (общее кол-во подписчиков и у скольки спарсило хэштеги).
4) Хэштеги собираются в 2 файла:
- общий, где они идут все списком
- сортированный. Т.е. если хэштег повторяется, то идет +1 по количеству. В итоге получается список уникальных хэштегов в выходном Excel, каждый из которых посчитан по количеству (количество выводится в соседнем столбце).
Парсер можно остановить, спарсенные данные должны сохраниться в Excel (хэштег | кол-во хэштегов) на момент остановки.
Парсер должен работать в фоновом режиме (не эмуляция поведения юзера через браузер, как у зенки). Должна быть возможность парсить через прокси.
Пару вопросов к Вам:
1) Насчет многотпоточности хочу услышать ваше мнение. Если работать из-под одного ip в несколько потоков, какой риск поймать бан или реджект от Инсты? Есть ли опыт парсинга в Инсте?
2) Если парсить в один поток, при скорости интернета 25 МБит/сек сколько примерно времени займет парсинг и сбор хэштегов 1000 подписчиков?
Жду Вашу заявку с указанием цены и срока и ответами на вопросы.