Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

парсер по заданному запросу в гугел через прокси

Парсер гуугель

Запрос inurl:bbs.cgi

Results 1 - 25 of about 1,320,000 for inurl:bbs.cgi. (0.11 seconds)

http://www.google.com/search?num=25&hl=en&client=opera&rls=en&hs=UHM&q=inurl%3Abbs.cgi&btnG=Search

лимит 1000

надо извлечь все 1 320 000 линков

использовать прокси лист

прокси лист берётся по заданному урл http://proxy.com/list.php

должен идти полный деиуггин отчёт на экране что происходит в каком потоке и это логироваться в текст файл для дальнейшего дебуггинга

должы учитываться все исключительные ситуации - стабильность работа

прокси не подгружаются

прокси не правильно форматированы

гуугел поставил запрос по прокси на паузу

и так далее

файл запросов называется zaprosy.txt

в этом файле будут на каждой строке по запросу

inurl:bbs.cgi

inurl:fantasy.cgi

inurl:apeboard_plus.cgi

inurl:aska.cgi

inurl:clever.cgi

inurl:gamebbs.cgi

inurl:light.cgi

inurl:glight.cgi

inurl:honey.cgi

inurl:joyful.cgi

inurl:mimic2.cgi

inurl:minibbs.cgi

inurl:petit.cgi

inurl:rbook.cgi

inurl:resbbs.cgi

iunrl:stlfbbs.cgi

inurl:yybbs.cgi

inurl:custombbs.cgi

inurl:ibbsm.cgi

inurl:imgbbs.cgi

inurl:imodebbs.cgi

inurl:korobbs.cgi

inurl:lounge.cgi

inurl:mkakikomitai.cgi

inurl:pppbbs.cgi

inurl:purybbs.cgi

inurl:q-board.cgi

inurl:talkbbs.cgi

inurl:upb.cgi

inurl:updown.cgi

inurl:msgbrd.cgi

/trackback/

/trackback.php/

?action=plugin&name=TrackBack&tb_id=

/tbinterface.php/

/tb/

/Trackback,guid,

/cgi-bin/mt/mtb.cgi/

/mt-tb.cgi/

/tb/tb.aspx/

/tbping

/tb.php?id=

/trackback.php/

/_trackback/

/wp-trackback.php?

/TBInterface/

sharp.cgi

register.cgi

guestbook.asp

light.cgi

yybbs.cgi

inurl:bbs.cgi

skbbs.cgi

stlfbbs.cgi

berry.cgi

guestbook/sign.php

gbook.php?a=sign

guestbook/sign.asp

и так далее сотни тысяч строк запроса

парсер берёт попорядку запрос его парсит и результат с линками вписывает

в отдельный текст inurl-bbs.cgi.txt

inurl-fantasy.cgi.txt

gbook.php-a=sign.txt

guestbook-sign.asp.txt

чтобы было понятно где что

прокси линк указываем в отдельном конфиг файле

вид такой

193.48.140.197:13833

142.68.170.156:4227

60.221.51.104:48583

196.27.91.33:13101

81.8.201.214:46978

84.248.64.35:35532

195.28.63.11:30786

62.1.121.47:44342

61.224.107.82:44162

80.217.146.44:50192

58.55.38.236:29326

196.22.146.140:46067

58.105.29.51:2571

84.228.180.84:46057

24.108.137.145:9943

58.99.191.160:26889

84.113.157.72:28559

85.240.175.218:56475

59.35.201.202:27061

217.194.147.222:51438

то есть главная задача если гуугел показывает что по заданному запросу 1,320,000 ответов

то в текст файле линков куда парсер записывает линки должно быть ровно 1,320,000 линков

17 лет назад
ukvendor2006
Гость 
NaN летБеларусь
18 лет в сервисе
Был
17 лет назад
10 отзывов(-2)
Выбранный исполнитель
SectorX
Гость 
NaN летУкраина
18 лет в сервисе
Был
12 лет назад
17 лет назад
$50
2 дня
Отзыв недоступен.
По этому заказу не оплачена комиссия сервиса!