2 Парсера в одном флаконе
1. Вот отсюда (Дам откуда) спарсить самые популярные 10000 запросов
Спарсить сразу и данные о категории, подкатегории из которой они набирались.
2. получить список сайтов, которые по всем собранным запросам находятся в топ10 Яндекса, что в Спецразмещении Яндекса и тех, что на 1-м месте в Директе справа.
3. для всех полученных доменов по whois получать данные(имя, контактный телефон, фирма...).
4. Для этого в программе есть список соксов, который можно обновить/заменить чтобы программа работала. Хорошо бы встроить проверку работы socks, чтобы во всяком случае если sock'не рабочие вставлены, то она не ждала долго, а говорила, что с такими не пойдет.
5. В результате работы софтины должна быть таблица, в которой
* Имя,
* email,
* Имя компании,
* Телефон
* адрес домена,
* где были найдены(топ10 или Спецразм., Директ),
* к какой тематике относится и в каком секторе(иными словами в какой рубрике и подрубрике MegaIndex)
6. Должна быть возможность фильтровать. Т.е. например, получить отдельно таблицу только физиков или отдельно только компаний, только такой-то рубрики тематической.
7. Должна быть возможность перезапустить 2 и 3-й пункт, т.е. пересобрать данные.
При пересобирании данных должна быть возможность посмотреть все новые полученные домены и их инфа и посмотреть полный список(в котором бы все дубли вычищались автоматически при внесении).
Пересобирание данных необходимо чаще всего не более раза в неделю. Только на стадии тестирования может запускаться чаще, но нет необходимости целиком для этого пересобирать данные.