Универсальный парсер (граббер)

Александр16 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

02.04.2010

Необходимо разработать универсальный парсер (грабер), либо доработать существующий.

Язык PHP

Простой и понятный интерфейс (чтобы мог работать любой человек)

Парсинг статей и картинок из заданных источников.

Удаление всех ссылок из текста без ущерба для текста (если ссылка имеет анкор, то ссылка исчезает, анкор остается).

Возможность настройки результатов экспорта в БД (настройка под CMS) и в .txt и в .html.

Удаление ненужных выражений еще на стадии парсинга.

Отдельный редактор результатов парсинга (задать чпу страниц, дату публикаций (возможность присваивать дату с заданным

интервалом), поиск и удаление дублей статей, добавления категорий и подкатегорий в которые добавлять статьи, сортировка по

категориям (перенос в другие категории), возможность по заданным тегам найти и сохранить в отдельную базу отобранные статьи,

синонимайзер, возможность перемешивания статей).

Возможность задавать размер картинок, и функция подбора картинок в яндексе или гугле, и добавления к статье в которой нет

картинки.

Настройка уровня парсинга (глубина), задавать кол-во статей которые нужно спарсить.

Возможность добавить источник в конце статьи с которого беруться статьи в виде. (с возможностью добавления noindex и nofolow)

Автор

ссылка (ссылка на сайт, либо на адрес страницы)

Запуск заданий по крону.

Возможность работы с проксями.