Парсер на Python (Scrapy)

Веб-программированиеЗакрытнет заявок169 просмотров

Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Написать парсер на Python с использованием фреймворка scrapy.

Обычный поисковый робот.

т.з.

Есть mysql таблица, таблица 1 со списком разрешенных сайтов для парсинга, status 0 парсили, 1 не парсили. Берем сайт из таблицы 1 со статусом 0, парсим все ВНУТРЕННИЕ ссылки (мусорные css\js\jpg и другие естественно фильтруем) остальное добавляем в таблицу 2, параллельно собираем title страницы, description, h1 и записываем эти данные с url в таблицу 2 не стесняемся заглядываем везде но правил сайта не нарушаем перед проходом заглядываем в robots.txt и гуляем только по разрешенным разделам (Scrapy умеет это вроде как из коробки) параллельно берем из robots.txt sitemaps и ее тоже парсим (Бывают в карте сайта ссылки на другие карты сайта так что это учитываем тоже при парсинге).

Как полностью сайт пропарсили берем из таблицы 1 следующий сайт, а тот что пропарсили обновляем status 1, как спарсили все меняем всем status 0 идем сначала. Сайты могут добавляться и удаляться заглядываем периодически.

Если парсим повторно то данные обновляем, в таблицах UNIQUE KEY столбец url.

Хочу протестировать фреймворк, думаю кто работал с фреймворком за час управится.

Если результат понравится будем сотрудничать дальше.

таблица 1

id|url|status|created_at|updated_at

1| site.ru|0

таблица 2

и mysql

Javascript Python MySQL CSS

5 лет назад

Михаил

35 летКазахстан

13 лет в сервисе

Был

8 месяцев назад

4 отзыва

Похожие заказы
Прочитать апи
Нужно понять API, могут ли биржи работать так как надо. Надо что бы при покупки на сайте Opencart биржа через API выдала криптовалютный кошелек и сумму для оплаты по курсу криптовалюты. После оплаты клиентом биржа продают криптовалюту за ...
OpenCart
Веб-программирование3 заявки
Закрыт
4 года назад
Установить и настроить плагины на Joomla
Здравствуйте, коллеги Нужно сделать доработки интернет магазина на joomla Ознакомиться с перечнем задач можете по ссылке: https://docs.google.com/document/d/17KHT4EuDBLiHI370dutFEJgzHixlwuqZ9ZOi5g2pYGE/edit?usp=sharing Мы подобрали модули, которые можно установить, чтобы решить задачи. Нужно чтобы Вы посмотрели, сказали свое экспертное мнение и стоимость работы.
Joomla
Веб-программирование1 заявка
Закрыт
4 года назад
Доработка сайта на webasyst (старая версия 290)
1. Сделать полный переход на https:// Серфтификат подключен, осталось сделать редиректы и прочие настройки 1.2 После подключения https:// не работает ни один скрипт, ни всплыв окно, ни купить в 1 клик и прочее 2. Регистр имени у ссылки, устранить ...
Webasyst
Веб-программирование1 заявка
Закрыт
4 года назад
Скопировать сайт
Просто сделать копию сайта, чтобы сайт при этом я мог изменить данные Все что внутри, метатеги и пр. чтобы все было на 100 % идентичным и поставить на хостинг Оплата поэтапно, предоплата не предусматривается.
Веб-программирование10 заявок
Закрыт
4 года назад
Переделать простенький стиль
Необходимо немного переделать простенький стиль, поменять цветовую гамму, может быть чуть подправить форму объектов, ну там сменить закруглённые края на ровные, и пожалуй всё. Пример страницы, под которую нужно подогнать имеющийся стиль в скриншоте. Тот дизайн, который ...
Веб-программирование13 заявок
Закрыт
4 года назад
Настройка Roistat
Нужно настроить интеграцию с двумя дополнительными доменами в AmoCRM. Сейчас почему-то считает неверно заявки и не видит продажи с этих заявок.
amoCRM
Веб-программирование3 заявки
Закрыт
4 года назад
Шаблоны для Zennoposter
ТЗ по ссылке https://docs.google.com/document/d/12dPrll_jzLi7noFWto2rKyKZcpy2U6IO1w9aiUqoUfU/edit?usp=sharing
Веб-программированиенет заявок
Закрыт
4 года назад
Нужен скрипт для заливки баннеров уже созданые кампании
Нужен скрипт для заливки баннеров уже созданые кампании мне нужно используя вот это API https://developers.google.com/adwords/api/docs/guides/mobile-app-campaigns добавлять в существующие кампании новые баннеры в Universal App Campaigns
Google Ads
Веб-программирование3 заявки
Закрыт
4 года назад
Указать место в коде, где меняется текст
Требуется указать файл и строку, где необходимо заменить статичный текст.
Веб-программирование2 заявки
Закрыт
5 лет назад
Подключение платежной системы к инвестиционную проету
Мне требуется, чтобы Вы смогли подключить API платежной системы, которой я скажу. Проект на h-script. Свяжитесь со мной если Вы ориентируетесь на hyip проектах, если Вы студия или разработчик собственного скрипта.
Веб-программирование2 заявки
Закрыт
4 года назад