Написать парсер html-страниц
Нужно написать универсальный парсер, который бы работал следующим образом:
1. Указываем ссылку на сайт
2. Парсер скачивает страницу и производит следующие действия:
а. Заменяет title и description на макросы [title] и [description]
б. вырезает мета-тег keywords, если он есть
в. Определяет сылки, ведущие на этот же домен и заменяет 5 ссылок на макрос [link]
г. Определяеет, в какой части страницы выводится контент и заменяет его на макрос [content]
д. Вырезает изображения, видео и прочее
е. Сохраняет html-страницу
Таким образом, на выходе должна получиться html-страница, в которой нет контента (текста, заголовков, картинок и т.п.), а заместо всего этого стоит макрос [content]. Структура должна остаться такой же.
Слова в меню (типа "Навигация", "Меню" и т.д.) можно оставить, а можно вырезать. Тут без разницы.
Просьба не оставлять заявку, если вы не знаете, как это реализовать.
Я точно знаю, что это реализовать можно, так как мой знакомый написал подобный парсер и показывал пример его работы.
Возможно, эта тема натолкнет вас на мысли, как это можно сделать - https://www.nulled.cc/threads/61824/
В заявке просьба указать цену и примерные сроки и был ли у вас опыт подобной работы.