Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Парсер можно писать как под Windows, так и под хостинг - главное результат.

Прототип парсера в действии можно посмотреть тут: www.uko.su/link_parser/index.php (однопоточный, не совсем то, что нужно, но как пример показывает суть работы)

Алгоритм работы парсера:

1) загружаю в него список URL:

http://www.site.ru/stranica1.php

http://site.com.ua/

http://forum.site.su/index.php?s=6b11102d3f957226f8b15cdeebf5d69b&showforum=7

http://site.ru/страница/

И т.д. и т.п., т.е. всевозможные форматы URL, которые встречаются в сети. Возможное количество страниц - до 10 000

2) Парсер заходит на главную страницу каждого сайта (первый уровень страницы) и начинает считать внешние ссылки, которые идут с этих сайтов на другие сайты. При этом:

а) внешними ссылками считаются ссылки (не закрытые от поисковых систем noindex и nofolow) на другие сайты

б) ссылки на один домен, но на разные страницы (или одинаковые страницы, например, счётчик или сквозная ссылка) считаются одной внешней ссылкой.

в) парсер должен уметь обрабатывать сразу несколько сайтов, количество таких потоков должно выбираться по желанию, например, 40

г) парсер должен собирать внешние ссылки до определённого уровня вложенности (кликов от главной) страниц (уровень выбирается по желанию от 1 до 10)

д) парсер должен отображать происходящее (иметь какой-либо индикатор, например, сколько сайтов осталось проверить или какой сейчас проверяется)

е) парсер должен иметь кнопку остановки по желанию (на случай, если он "нарвётся" на многостраничный сайт и проверка затянется)

ж) парсер должен уметь маскироваться под поисковых ботов (например, (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) )

з) ну и естественно, не глючить и не зависать, например, проверяя одни и те же страницы по кругу или зависать на ошибках 404, 500, 502 и т.д.

и) количество запросов к сайту в секунду должно меняться по желанию (т.к. некоторые хостинги не отдают более 2 страниц в секунду на ip и придётся парсить заново на более низкой скорости)

3) После того, как по выше описанным правилам собраны количества внешних ссылок, парсер выдаёт результат, в котором можно отсортировать ссылки по количеству внешних и выделить. Например, так отсортировали по убыванию:

http://www.site.ru/stranica1.php 1596

http://site.com.ua/ 1244

http://forum.site.su/index.php?s=6b11102d3f957226f8b15cdeebf5d69b&showforum=7 634

http://site.ru/страница/ 233

И из левой колонки выделили и скопировали страницы, на сайтах которых мы видим более 1000 внешних ссылок, это страницы:

http://www.site.ru/stranica1.php

http://site.com.ua/

Большим бюджетом не располагаю, пишите свои цены, сроки и контакты.

14 лет назад
sharhan666
Юрий 
46 летРоссия
18 лет в сервисе
Был
2 года назад
  • Похожие заказы
  • И так есть два проект 1) Почтовый сервис на движке B1GMAIL 2) Сайт с куча модулами и плагинами на движке Social Engine нужно их привязывать, чтоб при регистрации аккаунт на почте автоматом получать акк на Social ...

    Закрыт
    14 лет назад
  • Задача: парсим [censored] Точка входа [censored] Заполняем форму поиска (данные заданы в конфиге) в ответ получаем список [censored] Новые объявления по [censored] (которые раньше мы не видели) пишем в БД Открываем страницу каждого объявления , ранее не открытого, распарсиваем, и ...

    Завершен
    14 лет назад
  • Привет всем. хоЧу такой скрипт у себя на сайте http://www.goodfon.ru/crop.html?id=58807 Я понимаю, что это http://deepliquid.com/blog/archives/142 Но там есть ещё такие штуки как : черно белое фото, отображение по горизонтали и тд. Вообщем нужно такое мне. Предлагайте за сколько ...

    Закрыт
    14 лет назад
  • Есть сайт на джумле 1.5. Там стоит самодельный компонент, у которого есть база с некоторыми материалами. Стандартный поиск джумлы названия этих материалов не видит и соответственно не ищет по ним. Надо вот это поправить. Цена, сроки? Спасибо!

    Завершен
    14 лет назад
  • Есть сообщество ЖЖ, в котором люди публикуют посты, а другие их комментируют. Нужен бот, который бы посылал личное сообщение каждому опубликовавшему пост и каждому, кто его прокомментировал.

    Закрыт
    14 лет назад
  • Нужна ОТДЕЛЬНАЯ от движка панель для регистрации партнеров работающая с базой Webasyst Shop-Script. Для начала с минимальным набором функций, но с возможностью дальнейшей поддержки и развития. Сейчас нужен скрипт с возможностью регистрации партнеров. После регистрации партнер ...

    Закрыт
    14 лет назад
  • $10

    Скрипт регистрации, авторизации и подтверждения участия в турнире На базе данных. Что нужно: Форма регистрации: Логин майл 2 раза пароль Форма авторизации: логин пароль У юзеров на странице: Кнопка - Подтверждаю участие Админка: Указание даты в течении которого кнопка "Подтверждаю участие" у юзеров будет ...

    Закрыт
    14 лет назад
  • Поправить отображение года выпуска про подборе товаров на сайте www.acover.ru Это область под баннером где вы выбираете марку к ней привязана модель и год каждому товару присвоены эти данные. Сейчас год отображается если только один периуд задан ...

    Закрыт
    14 лет назад
  • $1000

    Нужно что бы сделали программу во флеше. Из готовых элементов можно было составлять стенды и сохранять их в jpg все элементы, из которых можно составлять стенд - предоставим. так же кандидату необходимо знать взаимодействие из ActionScript с PHP так ...

    Закрыт
    14 лет назад