Написать парсер html-страниц

Никита13 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

22.11.2015

Нужно написать универсальный парсер, который бы работал следующим образом:

1. Указываем ссылку на сайт

2. Парсер скачивает страницу и производит следующие действия:

а. Заменяет title и description на макросы [title] и [description]

б. вырезает мета-тег keywords, если он есть

в. Определяет сылки, ведущие на этот же домен и заменяет 5 ссылок на макрос [link]

г. Определяеет, в какой части страницы выводится контент и заменяет его на макрос [content]

д. Вырезает изображения, видео и прочее

е. Сохраняет html-страницу

Таким образом, на выходе должна получиться html-страница, в которой нет контента (текста, заголовков, картинок и т.п.), а заместо всего этого стоит макрос [content]. Структура должна остаться такой же.

Слова в меню (типа "Навигация", "Меню" и т.д.) можно оставить, а можно вырезать. Тут без разницы.

Просьба не оставлять заявку, если вы не знаете, как это реализовать.

Я точно знаю, что это реализовать можно, так как мой знакомый написал подобный парсер и показывал пример его работы.

Возможно, эта тема натолкнет вас на мысли, как это можно сделать - https://www.nulled.cc/threads/61824/

В заявке просьба указать цену и примерные сроки и был ли у вас опыт подобной работы.

HTML

Написать парсер html-страниц

Заявки фрилансеров