Парсер гугла
Василий17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
22.12.2007
Скорость парсинга не мение 100К в час(многопоточность), защита от бана поисковиков(прокси)
Должен уметь вытягивать все имеющиеся в в базе урлы (пример запроса inurl:"/bbs.cgi"
в базе 368 000 документов-надо вытащить все урлы и записать в текстовый файл)
Должен иметь редактор: отсеивать дубликаты по заданным параметрам(в основном по домену), "хвосты" урлов (резать лишнее) web интерфейс
иметь менеджер задач тоесть очередь отпарсил один запрос создал файл с результатами переходить к следующему запросу по очереди,
также иметь фпт тоесть в менеджере результатов должна быть опция отправить файл по фтп,
вот в принципе и все,главное вытаскивать все результаты хотябы 70% с учетом дублей и чтобы поисковик не банил,
рассмотрю готовые варианты