Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Написать парсер на Python с использованием фреймворка scrapy.

Обычный поисковый робот.

т.з.

Есть mysql таблица, таблица 1 со списком разрешенных сайтов для парсинга, status 0 парсили, 1 не парсили. Берем сайт из таблицы 1 со статусом 0, парсим все ВНУТРЕННИЕ ссылки (мусорные css\js\jpg и другие естественно фильтруем) остальное добавляем в таблицу 2, параллельно собираем title страницы, description, h1 и записываем эти данные с url в таблицу 2 не стесняемся заглядываем везде но правил сайта не нарушаем перед проходом заглядываем в robots.txt и гуляем только по разрешенным разделам (Scrapy умеет это вроде как из коробки) параллельно берем из robots.txt sitemaps и ее тоже парсим (Бывают в карте сайта ссылки на другие карты сайта так что это учитываем тоже при парсинге).

Как полностью сайт пропарсили берем из таблицы 1 следующий сайт, а тот что пропарсили обновляем status 1, как спарсили все меняем всем status 0 идем сначала. Сайты могут добавляться и удаляться заглядываем периодически.

Если парсим повторно то данные обновляем, в таблицах UNIQUE KEY столбец url.

Хочу протестировать фреймворк, думаю кто работал с фреймворком за час управится.

Если результат понравится будем сотрудничать дальше.

таблица 1

id|url|status|created_at|updated_at

1| site.ru|0

таблица 2

id|url|title|description|h1|created_at|updated_at|status

и mysql

5 лет назад
fatklass
Михаил 
35 летКазахстан
13 лет в сервисе
Был
8 месяцев назад
4 отзыва