Парсер гугла

Василий17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
22.12.2007

Скорость парсинга не мение 100К в час(многопоточность), защита от бана поисковиков(прокси)

Должен уметь вытягивать все имеющиеся в в базе урлы (пример запроса inurl:"/bbs.cgi"

в базе 368 000 документов-надо вытащить все урлы и записать в текстовый файл)

Должен иметь редактор: отсеивать дубликаты по заданным параметрам(в основном по домену), "хвосты" урлов (резать лишнее) web интерфейс

иметь менеджер задач тоесть очередь отпарсил один запрос создал файл с результатами переходить к следующему запросу по очереди,

также иметь фпт тоесть в менеджере результатов должна быть опция отправить файл по фтп,

вот в принципе и все,главное вытаскивать все результаты хотябы 70% с учетом дублей и чтобы поисковик не банил,

рассмотрю готовые варианты