Создание скрипта на python для выкачки и парсинга
Скрипт должен выкачивать ноутбуки и все их характеристики с яндекс.маркета и с товары.mail.ru
1) Поддерживать выкачку через прокси
2) Быть модульным -- в случай успешного сотрудничества вам предстоит добавить в него выкачку других категорий товаров
3) Сохранять все результаты в YAML формате
4) Преобразовывать значения в цифровые, например было:
HDMI: есть
а надо:
HDMI: 1
5) Разбивать значения на отдельные части, например:
Память: 4 GB DDR III
а надо:
Memory: 4
Memory_units: GB
Memory_type: DDR
Memory_generation: 3
Таким образом, в каждом поле в YAML файле должно храниться только одно, неразбиваемое дальше логически, значение, где только возможно приведенное к цифровому виду.
6) Для ноутбуков, для которых имеются обзоры на сайтах обзоров надо выкачать численные оценки проставленные обозревателями, например с cnet выкачивать следующие оценки
# Design: 9.0
# Features: 8.0
# Performance: 8.0
# Battery life: 7.0
# Service and support: 8.0
С cnet и еще пары сайтов, ссылки и более подробные указания по этому пункту дам уже взявшему заказ, работы там не много: аналогичная работа с парой сайтов.
7) С сайта с тестами видеокарт и процессоров выкачать результаты тестов и засунуть их в описание к каждому ноутбуку, равно как и некоторые характеристики процессоров и видеократ, например техпроцесс и энергопотребление.
Сроки: максимум неделя, желательно уложиться в пару дней.