Парсер внешних ссылок
Парсер можно писать как под Windows, так и под хостинг - главное результат.
Прототип парсера в действии можно посмотреть тут: www.uko.su/link_parser/index.php (однопоточный, не совсем то, что нужно, но как пример показывает суть работы)
Алгоритм работы парсера:
1) загружаю в него список URL:
http://www.site.ru/stranica1.php
http://forum.site.su/index.php?s=6b11102d3f957226f8b15cdeebf5d69b&showforum=7
И т.д. и т.п., т.е. всевозможные форматы URL, которые встречаются в сети. Возможное количество страниц - до 10 000
2) Парсер заходит на главную страницу каждого сайта (первый уровень страницы) и начинает считать внешние ссылки, которые идут с этих сайтов на другие сайты. При этом:
а) внешними ссылками считаются ссылки (не закрытые от поисковых систем noindex и nofolow) на другие сайты
б) ссылки на один домен, но на разные страницы (или одинаковые страницы, например, счётчик или сквозная ссылка) считаются одной внешней ссылкой.
в) парсер должен уметь обрабатывать сразу несколько сайтов, количество таких потоков должно выбираться по желанию, например, 40
г) парсер должен собирать внешние ссылки до определённого уровня вложенности (кликов от главной) страниц (уровень выбирается по желанию от 1 до 10)
д) парсер должен отображать происходящее (иметь какой-либо индикатор, например, сколько сайтов осталось проверить или какой сейчас проверяется)
е) парсер должен иметь кнопку остановки по желанию (на случай, если он "нарвётся" на многостраничный сайт и проверка затянется)
ж) парсер должен уметь маскироваться под поисковых ботов (например, (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) )
з) ну и естественно, не глючить и не зависать, например, проверяя одни и те же страницы по кругу или зависать на ошибках 404, 500, 502 и т.д.
и) количество запросов к сайту в секунду должно меняться по желанию (т.к. некоторые хостинги не отдают более 2 страниц в секунду на ip и придётся парсить заново на более низкой скорости)
3) После того, как по выше описанным правилам собраны количества внешних ссылок, парсер выдаёт результат, в котором можно отсортировать ссылки по количеству внешних и выделить. Например, так отсортировали по убыванию:
http://www.site.ru/stranica1.php 1596
http://site.com.ua/ 1244
http://forum.site.su/index.php?s=6b11102d3f957226f8b15cdeebf5d69b&showforum=7 634
И из левой колонки выделили и скопировали страницы, на сайтах которых мы видим более 1000 внешних ссылок, это страницы:
http://www.site.ru/stranica1.php
Большим бюджетом не располагаю, пишите свои цены, сроки и контакты.