Парсер УРЛов
Техническое задание: парсер УРЛов выдачи Поисковых Систем
Необходимо написать универсальный парсер для сбора информации с основых поисковых систем Интернета.
Предпочтительным является язык программирования: PHP
Обязательно, чтоб результаты парсинга сохранялись в базе данных MYSQL
Основные характеристика парсера:
* Скрипт должен уметь парсить по заданному ключевому слову основные поисковые системы Интернета (Яндекс, Гугл, Рамблер)
* Можно выбирать как одну поисковую систему, несколько, либо же все сразу (выбор должен подтверждаться чекбоксами)
* Обязательным является также возможность парсинга по блогам, картингам, новостям, RSS и видео (соответственно юзеру должен быть предоставлен выбор парсинга простой выдачи, по блогам, картинок и т.д. или все сразу - также чекбоксы)
* Также в скрипте должна быть возможность указывать глубину парсинга (т.е. до какого места в выдаче должен работать скрипт)
* Обязательна возможность парсера работать с прокси (список прокси будет браться из просто тхт файла)
* Если в выдаче по разным ПС встречаются одинаковые УРЛы скрипт должен удалить повторения перед записью в БД
Вся полученная информация должна сохранятся в таблице со следующей структурой
1. ID
2. УРЛ ссылки
3. Место в выдаче
4. Поискова система
5. Заголово сайта
Результаты парсинга по выдаче должны сохранятся в одну таблицу, по РСС в другую, по видео в третью, по новостям в 4-у и т.д. Все должно хранится отдельно.