Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

В связи с предстоящим переездом сайта регионального Информационного агентства с Joomla на Newscoop необходимо написать для нового движка граббер со следующим функционалом:

a. Граббер на php

b. Все его функции должны быть доступны из интерфейса в админке сайта

c. Он должен уметь граббить новости с сайтов, использующих самые распространенные русские кодировки, но помещать новости в нашу Базу Данных (БД) только в одной кодировке.

d. Иметь возможность расширения функционала посредством подключения плагинов на php. Подключение плагинов должно быть доступно через интерфейс

e. Граббер должен уметь граббить весь текст статьи (с картинками и\или видео) с сайта-донора, а не только анонсы

f. Граббер должен работать как с Rss, так и с HTML

g. Иметь возможность автоматического граббинга по расписанию

h. Иметь функционал по добавлению к сграбленым материалам Имен и Фамилий вымышленных авторов (берем в случайном порядке из заранее сформированного списка авторов точно так же, как в нынешней версии http://www.mngz.ru). Цель - имеем не безымянную статью, а под заголовком стоит «Петр Иванов, по материалам cnn.com или Вера Петрова, по материалам kremlin.org). Примеры см. http://www.mngz.ru/russia-world-sensations/russia/137393-pereselenci-iz-sirii-vozvrashayutsya-na-istoricheskuyu-rodinu.html и http://www.mngz.ru/tyumen-region/people-events-incidents/137384-poteryavshegosya-bolnogo-4-letnego-malisha-nashli-tyumenskie-policeyskie.html

i. При грабблении уметь автоматически уменьшать большие картинки до стандартных для нашего сайта размеров. Одновременно он должен производить над картинками другие оптимизирующие действия (например, убирать лишнюю информацию об авторстве, месте съемки и пр. из картинок)

j. Если на сайте-доноре обнаружится, что в тексте три и более картинки, то формировать из этих картинок блок. Пример см. здесь http://www.mngz.ru/home/editors-choice/135042-2012-05-31-03-30-04.html

k. Не переносить видео непосредственно на наш сайт, а делать так, чтобы чужое видео можно было посмотреть прямо с нашего сайта. Причем размеры окна видео должны быть стандартными для нашего сайта, а не иметь оригинальные размеры с сайта-донора.

l. Иметь «белые фильтры», т.е. срабатывать только если в заголовке и ПОЛНОМ ТЕКСТЕ на сайте-доноре (а не только в тексте анонса) есть указанные слова. Причем хорошо бы, если бы грабер сам понимал, что у всех слов есть словоформы,например, лес, леса, в лесу, лесом и т.д. Или хотя бы понимал, что если написано «лес*», то сюда же входят «леса», «лесничий», «лесина» и т.д. Если это невозможно, то все словоформы мы будем вставлять в список. Но обязательное условие, чтобы граббер понимал, что слова с одной заглавной буквы или полностью со строчных и заглавных – идентичны (например, идентичны Лес, лес, ЛЕС и даже лЕС).

m. Иметь «черные фильтры», т.е. не срабатывать, если в заголовке и ПОЛНОМ ТЕКСТЕ на сайте-доноре (а не только в тексте анонса) есть указанные слова. Те же условия по словоформам

n. Уметь публиковать сграббленные материалы в указанные разделы и категории

o. При публикации на главной странице надо, чтобы текст состаял из заголовка, фото\видео (если есть) и анонса, а для полной версии материала из Заголовка и полного текста

p. Уметь не публиковать сграббленные материалы, а просто заносить их в базу данных. При этом при использовании обычного поиска с сайта такие материалы не должны находиться.

q. Уметь автоматически ставить префиксы для заголовков по любым задаваемым шаблонам. Например, на сайте-доноре стоит заголовок "Город строится", а у нас выходит с нашим префиксом "Нефтеюганск: город строится". Или у них "Сводка за 7 сентября 2012 года", а у нас "Югра. Криминал. Сводка за 7 сентября"

r. Уметь складывать сграбленные картинки не в одну общую папку, а создавать папки, исходя из того, для какого сайта грабится, в какой месяц это происходит, в какой день и какая лента грабится

s. Грабер должен переименовывать латиницей картинки, исходя из заголовка сграбленного материала и времени его публикации

t. Уметь приводить заголовки к общему стандарту. Сейчас часть сайтов-доноров выдают заголовки ПРОПИСНЫМИ буквами (например, http://www.mngz.ru/official-ugra/city-press-releases/137496-nijnevartovsk-konkursniy-otbor.html ). Надо же так: Начало текста с заглавной, а далее с заглавной только имена собственные или аббревиатуры (распознавать имена и аббревиатуры на основе специального списка.

u. Уметь грабить медиаконтент из фотогалерей и формировать на их основе наши фотогалереи. Если на сайте-доноре есть подписи к фото, то эти подписи должны быть и у нас

v. Уметь формировать наши собственные видеогалереи, основываясь на видеогалереях сайтов-доноров. При этом видео не переносить на наш сервер, но при этом давать возможность смотреть видео не переходя на сайт-донор.

w. Граббер должен автоматом расставлять теги для поисковых систем

x. Граббер должен иметь обработчик для отладки лент (для возможности корректировать правила настройки без публикации мусора в базу данных)

y. В граббере должна быть система автоматического обнаружения сбойных лент. Если на протяжении недели какая-то лента не выдает материалов об этом надо сигнализировать (сообщением в админке и\или письмом). Кроме того должен быть ручной поиск по лентам с которых не идет граббинг на протяжении указанного периода времени.

z. Остальные функции граббинга лент максимально должны соответствовать функционалу граббера NewsGrabberJC (см. прикрепленный файл).

Цена и сроки договорные

12 лет назад
titt
45 летРоссия
12 лет в сервисе
Был
год назад
  • Похожие заказы
  • $250

    Необходимо доделать функционал на сайте, который сделан на cms OpenCart - необходимо доделать: 1) страницу товара, а именно возможность набирать дополнительные товары, то есть есть 2 типа товаров: - ТИП 1 - где есть товар у него ...

    Закрыт
    12 лет назад
  • $500

    1. Написать программу на JavaScript с использованием технологии Html5 (Canvas) 2. Программа должна отображать "Радиальную сетку". (ширина кольца равная 1/10 экрана, шаг радиальных линий 15 градусов) 3. Программа должна позволять расставлять нумерованные объекты. 4. Удалять объекты. 5. Очищать поле ...

    Завершен
    12 лет назад
  • Нужна реализация модуля, использующего сторонние API (XML-RPC) для добавления/обновления категорий, товаров, обработки заказов и пр. Смысл заключается в работе с товарами и обработке заказов. Задача 1. Добавление товаров на сайт. С помошью АПИ владельцу сайта показывется список ...

    Закрыт
    12 лет назад
  • Нужно написать видеопллер для будущего проекта. Плеер должен поддерживать прямые трансляции: вебка, рабочий стол, трансляции из игр. Третий способ: пользователь вводит ip и port игрового сервера где играют в данный момент люди, и мы начинаем транслировать игру. ...

    Закрыт
    12 лет назад
  • $25

    Необходимо отредактировать админку компонента. После нескольких манипуляций компонент бронирования комнат (на базе joomla) был переведен на русский язык и адаптирован для аренды техники. Все работает как часы, только в админке надо навести порядок. 1.Сделать замены в языковом файле. 2.Удалить ...

    Завершен
    12 лет назад
  • $10

    Для сайта joomla 1.5 нужно сделать такую вещь. На странице создания материала есть кнопка "Изображение", с ее помощью вставляется код в окно редактора, этот код выводит изображение. Нужно, чтобы код вставлялся не в окно редактора, а ...

    Закрыт
    12 лет назад
  • Имеется готовый каталог на FLEX, пример можно посмотреть здесь tandem.kz/britvennye-stan... Требуется: • убрать прозрачность страниц (фон белый); • добавить индикатор загрузки страницы; • в обычном размере каталога страницы должны листаться только стрелками по краям ...

    Закрыт
    12 лет назад