Фрилансеры предложат решение вашей задачи уже через несколько минут!

Публикация заказа на фриланс бирже не займет много времени.

8 лет назад
Виталий Т.
41 год, Россия
8 лет в сервисе
Был онлайн 1 год назад
8 лет назад

В связи с предстоящим переездом сайта регионального Информационного агентства с Joomla на Newscoop необходимо написать для нового движка граббер со следующим функционалом:

a. Граббер на php
b. Все его функции должны быть доступны из интерфейса в админке сайта
c. Он должен уметь граббить новости с сайтов, использующих самые распространенные русские кодировки, но помещать новости в нашу Базу Данных (БД) только в одной кодировке.
d. Иметь возможность расширения функционала посредством подключения плагинов на php. Подключение плагинов должно быть доступно через интерфейс
e. Граббер должен уметь граббить весь текст статьи (с картинками и\или видео) с сайта-донора, а не только анонсы
f. Граббер должен работать как с Rss, так и с HTML
g. Иметь возможность автоматического граббинга по расписанию
h. Иметь функционал по добавлению к сграбленым материалам Имен и Фамилий вымышленных авторов (берем в случайном порядке из заранее сформированного списка авторов точно так же, как в нынешней версии http://www.mngz.ru). Цель - имеем не безымянную статью, а под заголовком стоит «Петр Иванов, по материалам cnn.com или Вера Петрова, по материалам kremlin.org). Примеры см. http://www.mngz.ru/russia-world-sensations/russia/137393-pereselenci-iz-sirii-vozvrashayutsya-na-istoricheskuyu-rodinu.html и http://www.mngz.ru/tyumen-region/people-events-incidents/137384-poteryavshegosya-bolnogo-4-letnego-malisha-nashli-tyumenskie-policeyskie.html
i. При грабблении уметь автоматически уменьшать большие картинки до стандартных для нашего сайта размеров. Одновременно он должен производить над картинками другие оптимизирующие действия (например, убирать лишнюю информацию об авторстве, месте съемки и пр. из картинок)
j. Если на сайте-доноре обнаружится, что в тексте три и более картинки, то формировать из этих картинок блок. Пример см. здесь http://www.mngz.ru/home/editors-choice/135042-2012-05-31-03-30-04.html
k. Не переносить видео непосредственно на наш сайт, а делать так, чтобы чужое видео можно было посмотреть прямо с нашего сайта. Причем размеры окна видео должны быть стандартными для нашего сайта, а не иметь оригинальные размеры с сайта-донора.
l. Иметь «белые фильтры», т.е. срабатывать только если в заголовке и ПОЛНОМ ТЕКСТЕ на сайте-доноре (а не только в тексте анонса) есть указанные слова. Причем хорошо бы, если бы грабер сам понимал, что у всех слов есть словоформы,например, лес, леса, в лесу, лесом и т.д. Или хотя бы понимал, что если написано «лес*», то сюда же входят «леса», «лесничий», «лесина» и т.д. Если это невозможно, то все словоформы мы будем вставлять в список. Но обязательное условие, чтобы граббер понимал, что слова с одной заглавной буквы или полностью со строчных и заглавных – идентичны (например, идентичны Лес, лес, ЛЕС и даже лЕС).
m. Иметь «черные фильтры», т.е. не срабатывать, если в заголовке и ПОЛНОМ ТЕКСТЕ на сайте-доноре (а не только в тексте анонса) есть указанные слова. Те же условия по словоформам
n. Уметь публиковать сграббленные материалы в указанные разделы и категории
o. При публикации на главной странице надо, чтобы текст состаял из заголовка, фото\видео (если есть) и анонса, а для полной версии материала из Заголовка и полного текста
p. Уметь не публиковать сграббленные материалы, а просто заносить их в базу данных. При этом при использовании обычного поиска с сайта такие материалы не должны находиться.
q. Уметь автоматически ставить префиксы для заголовков по любым задаваемым шаблонам. Например, на сайте-доноре стоит заголовок "Город строится", а у нас выходит с нашим префиксом "Нефтеюганск: город строится". Или у них "Сводка за 7 сентября 2012 года", а у нас "Югра. Криминал. Сводка за 7 сентября"
r. Уметь складывать сграбленные картинки не в одну общую папку, а создавать папки, исходя из того, для какого сайта грабится, в какой месяц это происходит, в какой день и какая лента грабится
s. Грабер должен переименовывать латиницей картинки, исходя из заголовка сграбленного материала и времени его публикации
t. Уметь приводить заголовки к общему стандарту. Сейчас часть сайтов-доноров выдают заголовки ПРОПИСНЫМИ буквами (например, http://www.mngz.ru/official-ugra/city-press-releases/137496-nijnevartovsk-konkursniy-otbor.html ). Надо же так: Начало текста с заглавной, а далее с заглавной только имена собственные или аббревиатуры (распознавать имена и аббревиатуры на основе специального списка.
u. Уметь грабить медиаконтент из фотогалерей и формировать на их основе наши фотогалереи. Если на сайте-доноре есть подписи к фото, то эти подписи должны быть и у нас
v. Уметь формировать наши собственные видеогалереи, основываясь на видеогалереях сайтов-доноров. При этом видео не переносить на наш сервер, но при этом давать возможность смотреть видео не переходя на сайт-донор.
w. Граббер должен автоматом расставлять теги для поисковых систем
x. Граббер должен иметь обработчик для отладки лент (для возможности корректировать правила настройки без публикации мусора в базу данных)
y. В граббере должна быть система автоматического обнаружения сбойных лент. Если на протяжении недели какая-то лента не выдает материалов об этом надо сигнализировать (сообщением в админке и\или письмом). Кроме того должен быть ручной поиск по лентам с которых не идет граббинг на протяжении указанного периода времени.
z. Остальные функции граббинга лент максимально должны соответствовать функционалу граббера NewsGrabberJC (см. прикрепленный файл).
Цена и сроки договорные

  1. Прием заявок
  2. Выбор исполнителя
  3. Выполнение заказа
  4. Обмен отзывами
Сергей Р.
56 лет, Украина
9 лет в сервисе
Был онлайн 1 год назад
8 лет назад

Другие заказы в категории «Веб-программирование»

Здесь заказчик и фрилансеры могут обсуждать заказ до начала его выполнения.
Фрилансеры могут участвовать в обсуждении только после подачи заявки.
Здесь заказчик будет контролировать выполнение заказа и общаться с исполнителем.
Доступ к этому разделу имеют только заказчик и выбранный исполнитель.
Все материалы этого раздела закрыты от поисковых систем.