Скрипт, генерирующий карты сайта в XML и HTML
Создать скрипт, который будет генерировать карты сайта в XML и HTML.
На главной странице скрипта будет форма с полями:
- "Точка входа", с которой будет происходить начало crawling'а; [input text]
- "Частота обновления" (frequency), устанавливается пользователем: [select]
- Не ставить
- always (всегда)
- hourly (каждый час)
- daily (каждый день)
- weekly (каждую неделю)
- monthly (каждый месяц)
- yearly (каждый год)
- never (никогда)
- "Последнее обновление" (lastmod) [select]
- Не ставить;
- Записывать ответ сервера;
- Использовать следующую дату: [...];
- Предел количества страниц (например, спарсил 500 страниц и остановился)
- Число;
- Нет;
- Упаковывать ли в архив .gz? [да/нет] [checkbox]
- Пинговать ли ПС? [да/нет] [checkbox]
= В конфигурации необходимо сделать жёсткое ограничение на количество страниц (устанавливается администратором) [500];
= Чтобы пользователь не смог "повесить" сервер постоянными запросами и кликами;
= Сам процесс сбора информации должен выглядеть как на http://www.xml-sitemaps.com/ или похоже;
= После генерации система выдаст прямые ссылки на XML карту сайта, HTML и TXT;
= Формирование файла .txt (помимо .xml и .html) со списком полученных ссылок;
= Упаковка в архив sitemap.xml.gz;
= Хранение карты сайта на сервере в виде http://sitemapscript.ru/sitemaps/site.ru/sitemap.xml;
= Sitemap Ping для Поисковых систем (google, yahoo, live, bing, ask);
= Описание файла XML можно посмотреть на http://www.sitemaps.org/protocol.html;
----------------
Планируется расширение сервиса и долгосрочное сотрудничество.