Приватный проект для Ferggren
Сервер по организации и управлению парсерами порталов недвижимости.
1. Сделать сервер, работающий автономно и содержащий много парсеров на страницы больших агентств недвижимости. Парсеры в заданное время или по команде будут скачивать базы и посылать на наш сервер таблицу и картинки. База должна актуализироваться (изменения) а не качаться каждый раз по-новой.
2. В коде должны быть пометки, позволяющие другому програмисту быстрее разобраться с кодом.
3. Пользовательский интерфейс необязателен, но возможен.
4. Парсеры могут запускаться вручную через админку и тамже програмироваться запуски по времени. (один раз, каждый день, раз в неделю, время запуска от-до)
5. При повторном прохождении портала проверяет изменения в объявлении. Если они есть – парсит снова. Если изменений нет – пропускает. Если объявления нет – помечает его как удаленное. Парсит новые объявления.
6. У себя создает папки с уникальными названиями. Чтоб из названия было понятно что там лежит и когда спарсено.
7. В заданное время посылает таблицы и папки с картинками к нам по фтп в заданную папку. Целевой сервер и папка могут меняться. Т.е. Возможность настройки FTP.
8. Делает и сохраняет у себя/посылает на майл отчеты. Что спарсил, когда, сколько пропустил, ошибки – какие, когда, почему, как прошел импорт на целевом сервере. Возможность фильтровать данные по, скажем дате от-до, донору, итп
9. Предупреждает об изменениях в коде донора, если возможны ошибки при импорте данных.
10. Что касается статистики, это будет понятно в процессе работы. Но теоретически +/- ясно, что надо будет видеть что спарсили, когда, какие ошибки и почему, как прошел импорт на целевом сервере. возможность фильтровать данные по, скажем дате от-до, донору, итп. Предполагаем не просто какой-то лог.тхт а таблицы/графики , которые можно будет организовывать, сортировать по усмотрению администратора
11. Новые доноры/парсеры могут добавляться в неограниченном колличестве, что не потребует серезных изменений структуры движка. Часть повторяемого функционала будет вынесена в базовый класс. Парсеры будут наследовать этот класс. Добавление нового парсера в систему будет достаточно легким.
12. Интерфейс желательно на англ, но может быть и русским если так проще, но тогда нужно табличку в админке, где мы сами сможем сделать перевод интерфейса на англ без разбора кода.
13. Таблица на выходе в .xls 97-2003. Таблица подробно в приложении к договору.
14. Доноры все на чешском. Структура доноров индивидуальна, но очень похожа.
15. Возможность работать нескольким парсерам одновременно + легко запускать / останавливать парсер в админке.
16. Для ускорения парсинга работать можно в несколько потоков (5 - 10 на сайт)опционально через прокси (дабы не забанили). Хотя в приципе сопротивление донора не предполагается. Предполагается, что дононор будет рад, что его парсим.
17. На время тестирования исполнитель будет держать систему на своём сервере.
18. В стоимость проекта включен парсер на донора http://maxima.cz
19. Новые парсеры будут делаться за дополнительную плату из расчета +/-40 U$D за парсер. Исполнитель передаст заказчику все данные, необходимые для создания новых парсеров и их подключение к системе, на случай если в будующем он не сможет выполнять заказы заказчика по созданию новых парсеров.