Парсер

Сергей14 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
05.07.2013

Общее описание.

Система предназначена для сканирования сайтов и поиска по тексту страниц. Расчетное количество сайтов в индексе - до 1 млн.

Административный интерфейс.

Поиск

Сайты

Статистика

Настройки

Парсер

Дополнительные страницы

Пользователи

Поиск.

Список запросов и результатов по ним.

Панель: добавить.

Фильтр: текст, статус.

Колонки: текст, дата-время запуска, дата время окончания обработки, количество результатов, страниц обработано, "перезапустить", "редактировать", "удалить".

Групповые операции: перезапустить, удалить.

Сайты

Список сайтов для индексации.

Панель: добавить, добавить пакетно.

Фильтр: УРЛ, статус, ошибка

Колонки: ID, УРЛ, внутренние страницы, дата-время обработки, статус, "перезапустить", "просмотр", "удалить"

Групповые операции: перезапустить, удалить.

Статистика

Статистика работы парсера:

Длина очереди, скорость обработки (последние 10 минут), статус парсеров (количество потоков).

Настройки

Парсер

Количество потоков

Макс очередь

Мин очередь

Размер порции пополнения очереди

Дополнительные страницы

Список признаков страниц для выбора дополнительных (регулярные выражения)

Пользователи

Список пользователей админки

Описание работы

Скрипт с заданной периодичностью сканирует указанные урл сайтов (главные страницы) + при первом заходе (или ошибке получения ранее выбранной) выбирает все ссылки с главной старницы, проверяет их на принадлежность шаблонов заданных в настройках, первую подходящую так же скачивает.

После сканирования исходный код страницы укладывается в индекс по которому осуществляется поиск по регулярному выражению в фоновом режиме. Результат поиска список страниц/сайто где найдена подходящая регулярка.

Парсер работает в многопоточном режиме и умеет обрабатывать ХТТП редиректы и ошибки.

Технические характеристики.

Обработка со скоростью от 10 страниц в секунду.

Установка на выделенный сервер.

Заявки фрилансеров