Универсальный парсер (граббер)
Необходимо разработать универсальный парсер (грабер), либо доработать существующий.
Язык PHP
Простой и понятный интерфейс (чтобы мог работать любой человек)
Парсинг статей и картинок из заданных источников.
Удаление всех ссылок из текста без ущерба для текста (если ссылка имеет анкор, то ссылка исчезает, анкор остается).
Возможность настройки результатов экспорта в БД (настройка под CMS) и в .txt и в .html.
Удаление ненужных выражений еще на стадии парсинга.
Отдельный редактор результатов парсинга (задать чпу страниц, дату публикаций (возможность присваивать дату с заданным
интервалом), поиск и удаление дублей статей, добавления категорий и подкатегорий в которые добавлять статьи, сортировка по
категориям (перенос в другие категории), возможность по заданным тегам найти и сохранить в отдельную базу отобранные статьи,
синонимайзер, возможность перемешивания статей).
Возможность задавать размер картинок, и функция подбора картинок в яндексе или гугле, и добавления к статье в которой нет
картинки.
Настройка уровня парсинга (глубина), задавать кол-во статей которые нужно спарсить.
Возможность добавить источник в конце статьи с которого беруться статьи в виде. (с возможностью добавления noindex и nofolow)
Автор
ссылка (ссылка на сайт, либо на адрес страницы)
Запуск заданий по крону.
Возможность работы с проксями.