Парсер ссылок с поисковой выдачи
Нужен парсер выдачи с Поисковиков Яндекса и Гугла. В программе можно выберать опционально какой ПС парсить ли бо же если выбраны оба то парсятся оба ПС. (или можно сделать 2 отдельных exe файла. Один под Яндекс второй под Гугл)
Нужно сделать что бы ссылки сохранялись полность., но и в тоже время происходила фильтрафиция ссылок от повторов (по имени домена). (Можно сделать что бы сохранялись домены в виде http://site.ru), а ещё лучше сделать выбор в настройках программы сохранять полностью всю ссылку или сокращать её до http://site.ru
Так же сделать блек лиск куда можно будет написать имена доменов в формате site1.ru site2.ru и они не будут заносится в список спарсеных сайтов.
Так же нужно сделать что бы программа сохраняла собранные результаты в режиме работы.
Программа должна работать в многопоточном режиме + Работа с антигейт + работа с прокси
Ключевые запросы вот такого плана
inurl:“newthread.php?do=newthread“ кей1
inurl:“newthread.php?do=newthread“ кей2
inurl:“newthread.php?do=newthread“ кей3
inurl:“newthread.php?do=newthread» кей4
inurl:“newthread.php?do=newthread“ кей5
inurl:“newthread.php?do=newthread» кей6
Нужно что бы в настройках был шаблон ссылки для парсинга то есть у Яндекса ссылка выглядит след образом.
http://yandex.ru/yandsearch?text={text}&p={page}&n...
там где {text} это подстановка ключевого слова из файла с ключевыми словами (ключевых слов может быть хоть миллион)
там где {page} это подставляется число страниц, для парсинга всей доступной выдачи Яндекса.
Такого плана шаблон ссылки нужно сделать в настройках и для Гугла.
Так же нужно реализовать возможность работы с ГЕО выдачей, то есть в программа указывать с каких конретно городов смотреть выдачу или выбрать обпределённую группу городов или все вместе.
Так же нужно сделать возможность выбора языка сайтов для Парсинга в Гугле и в Яндексе есть такая функция как «показывать русские сайты» и тп.
В самой программе сделать удобный для работы интерфейс. С отдельной вкладкой настройки
Во вкладке Настроки должны быть настройки многопоточности, Шаблон ссылки для парсинга, ввод ключа антигейт, настройка прокси.
Прокси должны работать как с указанного файла который находится на локальном компьютере так же и через ссылку.
Так же нужно сделать поля для указания Паузы между запросами (что бы можно было оптимально настроить программу под ПС что бы не получать бан от них).
Работа с антигейт и прокси. Сделать настройку лимита кол капч на 1 прокси для того что бы в случае появления капчи менялась прокси, но при этом продолжало парсить на остановившемся месте.
Оплата только после получения готового софта.
Бюджет до 100$