Написать парсер клиник с сайта с сохранением в БД и экспортом в xlsx

Степан19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
23.12.2016

Требуется написать парсер клиник с сайта 32top.ru. Парсер должен пройтись по списку (http://www.32top.ru/search/clinic/) по всем страницам и собрать информацию о клиниках.

Какую информацию надо собрать:Требуется написать парсер клиник с сайта 32top.ru. Парсер должен пройтись по списку (http://www.32top.ru/search/clinic/) по всем страницам и собрать информацию о клиниках.

Это Москва. Позже нужно будет сделать аналогично по региональным поддоменам. 

Какую информацию надо собрать:

0. ID клиники на 32top

1. Город - пока moscow (по умолчанию, потом со всех остальных соберем аналогично)

2. Название клиники

3. Станции метро - желательно их выделить в справочник, чтобы можно было фильтровать потом, а не просто текстом

4. Адрес

5. Время работы (текстом, полный график на неделю)

6. Кол-во отзывов

7. Телефон(ы)

8. Описание

9. Выделена ли клиника в каталоге (желтые в списке) - да/нет

10. Сетевая клиника - кол-во филиалов и связи с филиалами (подумать как реализовать)

Парсер должен быть реализован на AJAX или типа того, т.е. чтобы в реальном времени был виден процесс парсинга. Должна быть возможность в какой-то переменной выставить задержку между запросами.

Сохранение результатов парсинга делать в БД. Но есть один нюанс. Т.к. парсинг может быть запущен в разное время, быть прерван, информация о клиниках может устареть и т.п. - предлагаю хранить в БД результаты каждого парсинга. Т.е. добавляем все, просто у каждой записи есть атрибут к какому результату парсинга относится.

Результаты парсинга имеют id, дату начала парсинга, кол-во собранных клиник, текстовое примечание. 

Каждая запись в БД клиник относится к какому-то результату парсинга (по id). 

Результаты парсинга можно удалить, - удалятся все клиники к нему относящиеся.

Когда мы заходим в парсер мы видим список результатов парсинга, пример:

#2 - "32top - Москва" - 23.12.2016 21:37 - 3617 клиник [ просмотр | удалить ]

#1 - "32top - Москва" - 21.12.2016 12:15 - 3600 клиник [ просмотр | удалить ]

*(32top - Москва - это текстове примечание произвольное...)

Под списком форма - начать новый парсинг, поле для указания текстового примечания к нему, и кнопка Начать.

Результаты парсинга можно посмотреть - откроется таблица с клиниками данного результата парсинга, которую можно по кнопке экспортировать в Excel в кодировке 1251.

0. ID клиники на 32top

1. Город - пока moscow (по умолчанию, потом со всех остальных соберем аналогично)

2. Название клиники

3. Станции метро - желательно их выделить в справочник, чтобы можно было фильтровать потом, а не просто текстом

4. Адрес

5. Время работы (текстом, полный график на неделю)

6. Кол-во отзывов

7. Телефон(ы)

8. Описание

9. Выделена ли клиника в каталоге (желтые в списке) - да/нет

10. Сетевая клиника - кол-во филиалов и связи с филиалами (подумать как реализовать)

Парсер должен быть реализован на AJAX или типа того, т.е. чтобы в реальном времени был виден процесс парсинга. Должна быть возможность в какой-то переменной выставить задержку между запросами.

Сохранение результатов парсинга делать в БД. Но есть один нюанс. Т.к. парсинг может быть запущен в разное время, быть прерван, информация о клиниках может устареть и т.п. - предлагаю хранить в БД результаты каждого парсинга. Т.е. добавляем все, просто у каждой записи есть атрибут к какому результату парсинга относится.

Результаты парсинга имеют id, дату начала парсинга, кол-во собранных клиник, текстовое примечание. 

Каждая запись в БД клиник относится к какому-то результату парсинга (по id). 

Результаты парсинга можно удалить, - удалятся все клиники к нему относящиеся.

Когда мы заходим в парсер мы видим список результатов парсинга, пример:

#2 - "32top - Москва" - 23.12.2016 21:37 - 3617 клиник [ просмотр | удалить ]

#1 - "32top - Москва" - 21.12.2016 12:15 - 3600 клиник [ просмотр | удалить ]

*(32top - Москва - это текстове примечание произвольное...)

Под списком форма - начать новый парсинг, поле для указания текстового примечания к нему, и кнопка Начать.

Результаты парсинга можно посмотреть - откроется таблица с клиниками данного результата парсинга, которую можно по кнопке экспортировать в Excel в кодировке 1251.

Заявки фрилансеров