Парсер внешних ссылок

Юрий19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
17.09.2010

Парсер можно писать как под Windows, так и под хостинг - главное результат.

Прототип парсера в действии можно посмотреть тут: www.uko.su/link_parser/index.php (однопоточный, не совсем то, что нужно, но как пример показывает суть работы)

Алгоритм работы парсера:

1) загружаю в него список URL:

http://www.site.ru/stranica1.php

http://site.com.ua/

http://forum.site.su/index.php?s=6b11102d3f957226f8b15cdeebf5d69b&showforum=7

http://site.ru/страница/

И т.д. и т.п., т.е. всевозможные форматы URL, которые встречаются в сети. Возможное количество страниц - до 10 000

2) Парсер заходит на главную страницу каждого сайта (первый уровень страницы) и начинает считать внешние ссылки, которые идут с этих сайтов на другие сайты. При этом:

а) внешними ссылками считаются ссылки (не закрытые от поисковых систем noindex и nofolow) на другие сайты

б) ссылки на один домен, но на разные страницы (или одинаковые страницы, например, счётчик или сквозная ссылка) считаются одной внешней ссылкой.

в) парсер должен уметь обрабатывать сразу несколько сайтов, количество таких потоков должно выбираться по желанию, например, 40

г) парсер должен собирать внешние ссылки до определённого уровня вложенности (кликов от главной) страниц (уровень выбирается по желанию от 1 до 10)

д) парсер должен отображать происходящее (иметь какой-либо индикатор, например, сколько сайтов осталось проверить или какой сейчас проверяется)

е) парсер должен иметь кнопку остановки по желанию (на случай, если он "нарвётся" на многостраничный сайт и проверка затянется)

ж) парсер должен уметь маскироваться под поисковых ботов (например, (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) )

з) ну и естественно, не глючить и не зависать, например, проверяя одни и те же страницы по кругу или зависать на ошибках 404, 500, 502 и т.д.

и) количество запросов к сайту в секунду должно меняться по желанию (т.к. некоторые хостинги не отдают более 2 страниц в секунду на ip и придётся парсить заново на более низкой скорости)

3) После того, как по выше описанным правилам собраны количества внешних ссылок, парсер выдаёт результат, в котором можно отсортировать ссылки по количеству внешних и выделить. Например, так отсортировали по убыванию:

http://www.site.ru/stranica1.php 1596

http://site.com.ua/ 1244

http://forum.site.su/index.php?s=6b11102d3f957226f8b15cdeebf5d69b&showforum=7 634

http://site.ru/страница/ 233

И из левой колонки выделили и скопировали страницы, на сайтах которых мы видим более 1000 внешних ссылок, это страницы:

http://www.site.ru/stranica1.php

http://site.com.ua/

Большим бюджетом не располагаю, пишите свои цены, сроки и контакты.