Парсер

Веб-программированиеЗакрыт8 заявок135 просмотров

Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Необходимо написать парсер, представляет собой серверный скрипт, считывающий ряд информационных данных с сайта https://www.flickr.com/ и формирующий ZIP архив для дальнейшего импорта на самописной CMS в соответствующем виде.

Техническое задание на разработку парсера:

Парсинг списка страниц:

Парсим список тегов-трендов недели https://www.flickr.com/photos/tags-week/ или тренды за сегодня https://www.flickr.com/photos/tags-day/ и https://www.flickr.com/photos/tags(блок Tags All Time Most Popular)

После берем основную точку входа https://www.flickr.com/search/?dimension_search_mode=min&width=5000&advanced=1&media=photos&license=9&sort=interestingness-desc&safe_search=1&text= и в параметр text в цикле тэги полученные на 1 этапе

Парсим все HTML страницы в соответствии с параметром text, например https://www.flickr.com/search/?dimension_search_mode=min&width=5000&advanced=1&media=photos&license=9&sort=interestingness-desc&safe_search=1&text=village Запуск скрипта должен быть возможен из консоли

Скрипт должен иметь возможность восстанавливать парсинг с последней точки при обрыве связи. (Хранить ID спарсенных изображений и при повторном запуске сверять полученные ID изображений и в случае совпадения пропускать)

Необходимо производить парсинг страниц с интервалом 1-2 секунд для избежания бана IP сервера

Обработка страниц:

При обработке полученных данных при парсинге списка страниц мы должны получить текстовые файлы без расширения в кодировке UTF-8 со следующей структурой

каждый макрос с новой строки

1. Метаданные.

#title# – парсится из тэга H1 страницы изображения

#desc# – парсится из тэга description, описание поста

#tags# – парсится из блока tags

#imgs# – полное URL изображения на сайте flickr в максимальном качестве

В конце URL изображения должна быть лицензия Creative Commons – CC0, например: https://www.flickr.com/photo.png | Creative Commons – CC0

#user# – имя автора Flickr Public Domain, задается в настройках

При обработке страниц необходимо исключить дублирующиеся изображения по имени файла

Выгрузка

Полученные данные необходимо выгрузить в структурированные папки, где:

Наименование папок являются имена тэгов из 1го этапа парсинга

Сформировать zip архив

Пример архива доступен по https://yadi.sk/d/8f8ib8n03ULu65

Дополнительные требования к реализации:

Никакая другая информация парситься не должна.

Все файлы в кодировке UTF-8

Необходимо пропускать изображения с пустыми #tags# (опционально)

Парсер должен запускаться по требованию на сервере с ключом

без ключей обычный парсинг всех данных

count – количество изображений, при отсутствии данного параметра необходим парсинг без ограничения по количеству

tdk – параметр 1-пропустить изображения с пустыми description

консольный запуск скрипта

Полное ТЗ здесь https://docs.google.com/document/d/1dr72HcS9YVmRKf9FWIhbCVAJf1JUtZIRT3z4cETpZNo/edit

Оплата поэтапно либо в конце

HTML

6 лет назад

Наталия

28 летРоссия

7 лет в сервисе

Была

6 лет назад

14 отзывов (-1)

Похожие заказы
Доработка сайта на ОпенКарт Колл78
1. Изменить хедер 2. Настроить отображения категорий 3. Поправить вывод краткого описание в карточке товара 4. Поправить страницу контакты 5. Формы оплаты и доставки 6. Новинки и Акции Подробно в ТЗ. Сайт на ОпенКарт (ОкСтор 2.3). Бюджет 4000 руб. Срок 2 дня. Оплата Сбер, Яд, ...
OpenCart Карточки товаров Сайт на OpenCart
Веб-программирование1 заявка
Закрыт
6 лет назад
Создание парсера для магазина на php
$300
Нужен парсер товаров и категорий для интернет магазина. Подробности в ТЗ
PHP
Веб-программирование1 исполнитель
Завершен
6 лет назад
Wordpress плагин отключения adsense по стоп-словам на странице
Всем привет, ищу специалиста по плагинам вордпресс, который сделает возможность отключать показ объявлений adsense на определенных страницах сайта, по заданным стоп-словам. Указывайте плиз бюджет и опыт подобных работ.
WordPress
Веб-программирование1 исполнитель
Завершен
6 лет назад
Внедрение коробочной версии Битрикс24 CRM
Отдел продаж 12 пользователей 10 номеров, Астериск Интеграция с 1С 10,3 управление торговлей Без предоплат, оплата поэтапно. Оставляйте скайп.
Asterisk 1С
Веб-программированиенет заявок
Закрыт
6 лет назад
Выгрузка товаров из Joomla на Avito
Необходима выгрузка товаров на авито. Т.е. создание XML файла по инструкции: [url=https://www.fl.ru/a.php?href=http%3A%2F%2Fautoload.avito.ru%2Fformat%2Fdlya_doma_i_dachi%2F]autoload.avito.ru/format/...[/url] По сопоставлению категорий уже есть решение. - Магазин работает на компоненте VirtueMart 2*. Joomla! 2.5.14 Stable, Joomla Platform 11.4.0 Stable Без предоплат, оплата поэтапно. Оставляйте скайп.
Joomla Virtuemart
Веб-программирование1 исполнитель
Закрыт
6 лет назад
Доработка скрипта работающего с api Behance и Dribbble
$500
Необходимо доработать скрипт, который будет обращаться к api Behance и Dribbble. Скрипт должен собирать данные и сохранять их в бд. Более детальное тз будет выдано после собеседования. На данный момент уже создан проект на основе react-boilerplate (webpack ...
MongoDB Доработка скрипта React.js Redux
Веб-программирование2 заявки
Закрыт
6 лет назад
Необходимо разработать бот на платформе Диалог
Нужно сделать бота на платформе dlg.im есть уже готовый рабочий бот в телеграм, по сути нужна его копия просто. Бот простой с кнопками и зашитой информации внутри. Кидаю ссылку на готовый телеграм @BerezhokBot Кто готов помочь ...
Веб-программирование2 заявки
Закрыт
6 лет назад
Установка и настройка системы автоматизации iiko
Требуется установка и настройка системы автоматизации IIKO для сети доставки пиццы и суши из трех и более точек.
Веб-программирование1 заявка
Закрыт
6 лет назад
Добавление медиафайлов на сайт + написание скрипта анимации
$100
Предметом разработки является написание скрипта открытия модального окна в веб-сайте и анимирование элементов находящихся в нем Написание кода скрипта осуществляется на языке Javascript, допускается использование библиотеки jQuery версии не ниже 3.0 Скрипт должен быть написан в отдельном ...
Javascript HTML jQuery
Веб-программирование2 заявки
Закрыт
6 лет назад
Расширение функционала сайта
Нужно добавить на сайт следующие функции - автоматический и ручной выбор города - кредитный калькулятор - местоположение офиса на карте - seo оптимизация верстки для последующего наполнения текстами - правка некоторых блоков и форм, работа с меню, таблицами ОПЛАТА ПОЭТАПНО ИЛИ ...
SEO-оптимизация
Веб-программирование3 заявки
Закрыт
6 лет назад